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摘要 : 


非 编 码 核糖 核酸 (noncoding RNA, ncRNA) 415 AeA 


前 生物 学 研究 ,特别 是 基因 组 研究 


领域 快速 发 展 的 两 个 方向 ， 也 是 生物 信息 学 研究 所 关注 的 热点 。 本 文 分 别 对 非 编码 核糖 核酸 研究 以 及 复杂 


生物 网 络 研究 的 相关 背景 和 最 新 研究 


将 非 编码 核糖 核酸 引入 复杂 生物 网 络 丰 


关键 词 ， 生 物 信息 学 ， 蛋 白质 相互 作 


展 ， 特 别 是 生物 信息 学 在 世 
究 的 重要 意义 以 及 下 一 步 的 可 能 工作 方向 。 


] 网络， 非 编 码 RNA 基 


1 引言 


继 1995 年 流感 嗜 


中 的 应 ) 


- 步 讨 论 了 


进行 了 介绍 ， 并 i 


因 ;， 复 杂 网 络 分 析 


[杆菌 基因 组 全 序列 测序 完成 之 后 ,一 系列 生物 的 全 基因 组 被 测定 ， 


特别 是 在 2004 年 人 类 基因 组 序列 测定 的 基本 完成 外 标志 着 生物 学 研究 后 基因 组 时 代 到 来 。 


作为 生物 遗传 信息 的 载体 , 基因 组 全 序列 的 测定 完成 给 我 们 提供 了 丰富 的 信息 , 但 
我 们 带 来 了 新 的 问题 。 传 统 观念 认为 生物 的 复杂 性 是 
过 物种 间 基 因 组 序列 的 比 对 分 析 , 我 们 发 现 人 类 和 线虫 虽然 在 生命 的 形态 和 复杂 程度 上 有 着 
巨大 的 差别 ， 但 两 者 编码 蛋白 质 基因 的 数目 相差 却 3 


的 网 络 。 网 络 ， 


增加 可 以 通过 两 种 不 同 的 途径 : 首先 是 增加 网 络 


质 和 核糖 核酸 从 而 扩大 网 络 的 规模 ; 更 重要 的 是 通过 为 
能 力 和 引入 新 的 节点 间 相 互 作 用 机 制 。 
络 中 的 这 些 复 杂 的 相互 作用 和 调控 关系 ， 而 不 是 仅 


因此 ， 对 于 4 


中 日 


不 大 


BE 


由 编码 蛋白 质 基因 的 规模 决定 的 , 但 通 


同时 也 给 


中 。 那 么 究 况 还 有 什么 原因 造成 


了 人 类 和 线虫 之 间 这 么 巨大 差别 呢 ? 已 有 研究 表明 生命 体 可 以 表示 为 一 个 复杂 的 动态 变化 
的 节点 是 各 种 生物 分 子 ， 如 脱氧 核糖 核酸 CDNA). FABIAN CRNA). E 
白质 ， 它 们 之 间 的 关联 表示 为 边 〈 无 向 边 ， 如 蛋白 相互 作用 ) 或 箭头 《有 向 边 ， 如 基因 调控 
关系 ) “中 。 系 统 生 物 学 认为 这 种 网 络 关系 下 是 生命 复杂 性 
是 由 网 络 中 各 节点 之 间 的 不 同 相互 作用 、 调 控 关 系 上 


的 源泉 ， 各 种 复杂 的 生命 现象 都 


有 合 和 动态 变化 产生 的 。 生 命 复杂 度 的 


"T ra AC E 


， 即 在 网 络 中 添加 更 多 的 蛋白 


0 强 网 络 中 节点 间 相互 作用 动态 调整 的 


E HI 


究 需 要 从 整体 出 发 , 研究 生命 网 


VE WA: 


也 研究 一 个 个 网 络 中 的 节点 外。 


非 编码 核糖 核酸 基因 是 指 转 录 后 无 需 翻 译 成 蛋白 
”。 非 编码 核糖 核酸 在 包括 染色 体 表 观 遗传 修饰 、 信 使 核糖 核酸 MRNA) 转录 
EE 要 环节 发 挥 功能 
随 着 大 量 非 编码 核糖 核酸 在 多 种 模式 生物 中 的 相继 发 现 ， 
究 中 的 重点 和 热点 号。 生物 网 络 中 非 编码 核 
络 中 增加 了 数 以 万 计 的 节点 , 扩大 了 网 


能 的 基因 
和 降解 、 蛋 白质 的 运输 、 核 糖 核 
以 及 肿瘤 的 发 生 密切 相关 036, 


对 非 编码 核糖 核酸 的 研究 已 经 成 为 生物 学 1 
糖 核酸 的 加 入 大 大 增加 了 生命 的 复杂 性 : 


酸 的 加 工 


质 , 而 直接 以 核糖 核酸 形式 行使 生物 功 


Bi E: 


络 的 规模 ; 更 重要 的 是 它 在 网 络 ， 


核糖 核酸 CmiRNA) “对 信使 核糖 核酸 的 互补 抑 旬 


的 转录 后 调控 层次 OO, 


: 首先 它 在 网 
增加 了 各 种 新 的 相互 
B EH 


于 认识 到 非 编码 核糖 核酸 的 


非 编码 基因 的 


究 现 在 已 经 从 寻找 新 的 非 编码 基 


1 生物 体内 源 长 度 约 为 20 一 23 个 核 苷 酸 的 非 编码 小 核糖 核酸 。 


33 


作用 机 制 ， 例 如 近年 来 才 发 现 的 微型 
就 在 生物 复杂 网 络 中 引入 了 一 个 全 新 
8 现 对 生物 网 络 可 能 的 重大 影响 ， 对 
因 , 研究 探索 非 编 码 基因 功能 向 研究 和 建立 


”1， 同 多 种 疾病 


生物 复杂 生物 网 络 及 非 编码 RNA 参与 的 双色 网 络 


非 编码 基因 和 编码 基因 的 混合 网 络 这 个 方向 扩展 。 虽然 混合 网 络 的 研究 还 刚刚 开始 , 但 必 将 
成 为 非 编码 基因 研究 的 新 热点 。 在 本 文中 , 我 们 将 结合 近 几 年 来 我 们 在 非 编 码 核糖 核酸 以 及 
生物 复杂 网 络 方面 所 做 的 工作 , 分 别 对 非 编 码 核糖 核酸 功能 研究 , 复杂 生物 网 络 分 析 以 及 非 
编码 核糖 核酸 参与 的 生物 网 络 的 构建 几 个 方面 的 已 有 工作 以 及 下 一 步 的 可 能 研究 方向 进行 


介绍 。 


2 非 编码 核糖 核酸 与 核糖 核酸 组 学 


在 高 等 生物 和 人 的 基因 组 中 非 编码 区 占 到 基因 组 序列 的 大 部 分 , 如 人 类 基因 组 和 小 鼠 基 
因 组 中 的 编码 蛋白 质 的 序列 只 占 约 3-5%， 其 余 约 95-97% 为 非 编码 区 P991, jax ste pedi — Hr 
被 认为 是 没有 任何 功能 的 “垃圾 DNA". 但 从 生物 进化 的 观点 来 看 ， 非 编码 区 序列 随 着 生物 
体 功能 的 完善 和 复杂 化 而 明显 增加 的 趋势 表明 , 非 编码 区 序列 必定 具有 重要 的 生物 功能 。 最 

近 几 年 国内 外 学 者 对 大 规模 转录 组 的 相关 研究 日 益 深 入 。 大 量 的 实验 数据 表明 基因 组 非 编码 

区 不 但 作为 结合 位 点 参与 转录 调控 , 而 且 还 能 转录 出 数目 众多 的 非 编码 核糖 核酸 产物 。 相关 

研究 包括 : CL) 大 规模 互补 脱氧 核糖 核酸 (cDNA) 注释 研究 ， 如 2003 年 ，RIKEN 国际 联 
~ 盟 在 克隆 分 析 小 鼠 全 长 互补 脱氧 核糖 核酸 时 发 现 其 中 有 近 4280 个 全 长 互补 脱氧 核糖 核酸 是 
C 缺乏 蛋白 质 编码 读 框 的 非 编 码 核糖 核酸 基因 OA, (2) 基 因 芯 片 研究 , 如 2005 年 Affymetrix 
m 公司 在 运用 高 密度 的 寡 核 苷 酸 芯片 对 10 条 人 类 染色 体 的 转录 组 研究 中 证 实 了 大 量 的 非 编码 
e 核糖 核酸 基因 的 存在 (中;，(3) 实验 核糖 核酸 组 学 ， 如 2006 年 中 科 院 生物 物理 所 陈 润 生 实验 
e 室 在 对 线虫 的 微型 核糖 核酸 研究 中 发 现 了 大 量 新 的 非 编码 核糖 核酸 , 包括 两 类 新 的 非 编码 核 
糖 核酸 、 小 核 样 核糖 核酸 (small nuclear-like RNA, snIRNA ) 和 柄 部 突出 核糖 核酸 (stem-bulge 
RNA, sbRNA) 4。 当然 还 有 大 量 的 其 他 类 似 工作 不 能 一 一 列举 。 到 目前 为 止 各 国 科 学 家 
己 经 在 包括 小 鼠 、 果 蝇 、 拟 南 草 、 水 稳 、 古 细菌 甚至 大 肠 杆菌 等 多 种 生物 中 发 现 了 大 量 的 非 
编码 核糖 核酸 081925281, 


己 有 研究 发 现 这 些 长 短 不 一 , 结构 各 异 的 非 编 码 核糖 核酸 在 生物 体 中 发 挥 着 各 种 不 同 功 

能 ， 如 小 核 核 糖 核 酸 (small nuclear RNA, snRNA) 参与 信使 核糖 核酸 剪接 [站 ， 小 核 仁 核糖 
核酸 (Small nucleolar RNAs, snoRNA) 参与 核糖 体 核糖 核酸 (ribosomal RNA, rRNA) 的 
甲 基 化 和 假 尿 喀 啶 化 加 工 052， 向 导 核 糖 核酸 Cguide RNA, gRNA) 参与 核糖 核酸 编辑 9， 
信和 号 识别 颗粒 核糖 核酸 (The Signal Recognition Particle RNA, SRP-RNA) 参与 蛋白 质 的 
2 胞 定位 四， 端 粒 核糖 核酸 参与 脱氧 核糖 核酸 端 粒 合成 并 影响 细胞 的 寿命 站， 转移 信使 核糖 
核酸 (transfer-messenger RNA, tmRNA) 参与 终止 受 损 的 信使 核糖 核酸 的 蛋白 质 合成 过 程 2; 

Xist 能 使 染色 体 失 活 P, piRNA? 参 与 调控 染色 体 表 观 遗 传 修饰 等 名 。 另 外 ， 在 最 近 对 多 
种 疾病 和 肿瘤 的 医学 研究 中 也 发 现 了 大 量 肿瘤 和 疾病 特异 表达 的 非 编码 基因 , 如 在 非 小 细胞 
肺癌 中 高 表达 的 非 编 码 核糖 核酸 基因 MALATI109， 在 前 列 腺 癌 中 异常 表达 的 非 编码 核糖 核 
酸 基因 PCGEM1 等 吕 。 相 对 于 已 知 功能 的 非 编码 核糖 核酸 ， 我 们 对 于 绝 大 部 分 非 编码 核糖 
核酸 的 功能 可 以 说 近乎 一 无 所 知 , 如 何 研 究 这 些 非 编 码 核糖 核酸 的 调控 与 功能 已 经 成 为 生物 
学 研究 的 新 挑战 。 中 外 科学 家 都 已 经 注意 到 了 以 此 为 研究 对 象 的 核糖 核酸 组 问题 , 早 在 1998 
年 我 国 科 学 家 金 由 辛 就 在 第 109 次 香山 科学 会 议 上 提出 了 “功能 核糖 核酸 组 研究 计划 ” E 
外 在 2000 年 左右 也 已 经 开始 了 大 规模 的 实验 和 计算 核糖 核酸 组 学 研究 ， 在 2001 年 一 2006 
年 ， 这 个 领域 的 重要 发 现 5 次 被 《科学 (Science)》 归 入 当年 的 年 度 十 大 科学 发 现 。 以 非 编 
人 码 核 糖 核 酸 为 研究 主题 的 核糖 核酸 组 学 研究 已 经 成 为 实验 生物 学 和 生物 信息 学 领域 的 热点 。 


”Piwi-interacting RNA, 一 类 小 型 核糖 核酸 分 子 ， 长 度 大 约 是 29 到 30 个 核 音 酸 。 只 表现 在 哺乳 动物 的 贞 丸 
中 ， 并 且 可 以 和 Piwi 蛋白 结合 形成 piRNA 复合 物 (piRNA complexes，piRCs)。 与 核糖 核酸 沉默 RNA 
silencing) 作用 有 关 
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1.1 非 编 码 RNA 基因 数据 库 NONCODE 的 建立 


随 着 对 非 编 码 基 因 的 日 益 重 视 和 相关 研究 的 深入 开展 , 越 来 越 多 的 非 编 码 基 因 新 成 员 和 
非 编 码 基因 新 类 被 发 现 ， 收集、 组 织 非 编码 基因 相关 信息 的 数据 库 也 开始 出 现 。 这些 数据 库 


获取 关键 词 
并 建立 关键 词 表 


用 关键 词 表 过 滤 和 

收集 相关 文献 我 们 实验 室 
所 得 数据 
(未 发 布 》 


阅读 文献 并 添加 新 
关键 词 到 关键 词 表 


用 关键 词 过 滤 
Genbank 


大 工 验 证 数据 


由 文献 和 
Genbank 所 得 
到 的 所 有 数据 


由 文章 中 提取 数据 


由 过 程 和 功能 〈pfclass) 
引入 分 类 并 升级 pfclass 


用 从 文献 和 Genbank 得 到 的 信息 SS 
注解 数据 并 为 每 个 条 目 绘制 图 表 删除 宛 余 


所 有 ncRNA 


图 1. NONCODE 数据 收集 处 理 流 程 
中 有 的 只 关注 于 某 一 类 非 编码 基因 ， 如 SRP RNA, tmRNA, £l RNase P RNA*， 有 的 则 是 收 


”核糖 核酸 酶 P 中 的 核糖 核酸 组 分 ,普遍 存在 于 古 生 菌 、 细 菌 、 真 核 及 叶绿体 、 线 粒 体 中 的 一 种 核糖 核酸 内 
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集 了 各 种 非 编码 基因 数据 , 如 “Small RNA Database”, “NoncodingRNA Database ”以 及 “Rfam 
Database”B 9 站。 然而 这 些 数据 库 都 存在 着 一 些 问 题 。 首 先是 由 于 它们 收集 的 数据 往往 是 通 
过 人 工 从 文献 中 获取 , 所 以 收集 的 非 编 码 基 因数 据 不 论 是 从 数量 还 是 种 类 上 来 说 都 有 很 多 遗 
漏 。 男 一 个 更 严重 的 问题 是 他 们 都 没有 一 个 统一 的 对 非 编 码 基因 分 类 注释 的 系统 ,而 这 个 问 
题 带 来 的 麻烦 更 加 危险 .NONCODE 就 是 在 这 样 的 背景 下 开始 建设 的 。 一 方面 , NONCODE 
采取 了 计算 机 自动 过 滤 GenBank 数据 然后 人 工 检查 确认 的 工作 方式 。 这 样 既 提 高 了 收集 
数据 的 全 面 性 和 准确 性 ， 又 保证 了 工作 效率 。 另 一 方面 ,为 了 解决 非 编 码 基 因 人 缺乏 统一 分 类 
体系 的 问题 , 我 们 提出 了 一 套 以 非 编 码 基 因 所 参与 的 细胞 生化 过 程 和 在 此 过 程 中 发 挥 的 功能 
为 标准 的 全 新 的 、 统 一 的 分 类 体系 “过 程 功能 ”分 类 系统 。 在 第 一 版 NONCODE 数据 
库 中 我 们 共 收 集 了 除 转移 核糖 核酸 (transfer RNA，tRNA)， 核 糖 体 核糖 核酸 以 外 所 有 种 类 
的 非 编 码 基因 数据 共计 5339 条 非 见 余 记录 ， 涉 及 861 个 物种 ， 遍 及 真 细 菌 、 古 细菌 和 真 核 
^E gy ji, 


为 了 高 效 而 且 全 面 地 收集 非 编 码 基 因数 据 , 我 们 以 PubMed 为 起 点 设计 了 一 套 计算 机 自 
动 分 析 辅 助人 工 确认 的 数据 收集 流程 〈( 见 图 1)。PubMed 是 美国 国家 医学 图 书馆 所 属 的 国家 


一 生物 技术 信息 中 心 开 发 的 互联 网 生物 医学 信息 检索 系统 ， 覆 盖 了 全 世界 70 多 个 国家 4300 
m 多 种 主要 生物 医学 期 刊 的 摘要 和 部 分 全 文 。 我 们 用 关键 字 表 检索 PubMed， 检 索 得 到 的 文献 
N 通过 手工 检查 ， 以 确认 文献 和 非 编码 基因 相关 。 通 过 阅读 这 些 非 编码 基因 相关 的 文献 ， 进 一 
T 步 得 到 新 的 非 编码 基因 关键 字 。 我们 根据 这 些 新 的 关键 字 更 新 关键 字 表 ,然后 用 新 的 关键 字 
e 表 自动 过 滤 GenBank 中 的 GB 格式 文件 。GenBank 由 美国 国立 生物 技术 信息 中 心 建立 和 维 
PS 护 ， 其 中 包含 了 所 有 已 知 的 核酸 序列 和 蛋白 质 序列 以 及 与 它们 相关 的 文献 著作 和 生物 学 注 
e 释 。 每 个 GB 格式 文件 包含 了 对 序列 的 简要 描述 、 科 学 命名 、 物 种 分 类 名 称 、 参 考 文献 、 序 
r- 列 特征 表 以 及 序列 本 身 。 序 列 特征 表 里 包 含 对 序列 生物 学 特征 注释 如 : 编码 区 、 转 录 单 元 、 
c 重复 区 域 、 突 变 位 点 或 修饰 位 点 等 。 根据 GB 文件 中 的 这 些 注释 和 我 们 的 非 编码 基因 相关 关 


键 字 表 我 们 可 以 粗 得 出 可 能 的 非 编 码 基 因 ， 并 能 对 筛选 出 的 候选 非 编码 基因 进行 初步 分 类 。 
所 有 GB 文件 被 分 为 细菌 类 、 病 毒 类 、 灵 长 类 、 嘴 齿 类 以 及 EST 数据 、 基 因 组 测序 数据 、 
大 规模 基因 组 序列 数据 等 16 类 。 我 们 的 搜索 主要 针对 其 核酸 库 中 的 真 核 、 原 核 、 细 菌 、 病 
毒 、 类 病毒 等 儿 类 。 搜 索 得 到 的 数据 被 导入 MySQL 数据 库 中 等 待人 工 检查 确认 。 经 过 人 工 
角 认 其 为 真实 的 非 编码 基因 数据 则 对 其 进行 一 系列 注释 工作 。 同样 ,整个 注释 过 程 基本 由 计 
算 机 自动 完成 ， 少 数 特殊 情况 计算 机 将 提示 需要 人 工 确认 。 最 后 ， 我 们 在 这 个 数据 库 的 基础 
上 建立 了 一 个 界面 友好 、 功 能 全 面 的 网 络 接口 (www.noncode.org )， 提 供 数据 浏览 、 关 键 字 
搜索 、 序 列 在 线 Blast 查询 、 数 据 下 载 等 一 系列 服务 。 


在 现 有 的 非 编码 基因 的 命名 中 , 有 的 非 编码 基因 是 根据 其 在 细胞 中 的 定位 来 命名 的 ,如 
小 核 核 糖 核酸 (在 细胞 核 中 )， 小 核 仁 核糖 核酸 (在 核 仁 中 ) 名人， 有 的 非 编 码 基因 是 根据 
功能 来 命名 的 ， 如 pRNA (package RNA， 组 装 核糖 核酸 )， 向 导 核糖 核酸 中 人， 更 有 甚 者 ， 
直接 用 非 编 码 基因 的 沉降 系数 来 命名 ， 如 6S RNA, 5.3S RNA 等 S。 这 些 不 同 的 命名 方法 
导致 同 一 类 非 编码 基因 由 于 来 自 不 同 的 实验 室 往往 会 有 多 个 名 字 , 还 有 很 多 名 字 相 同 但 功能 
完全 不 相关 的 非 编 码 基 因 出 现 。 我 们 根据 非 编码 基因 参与 的 细胞 生化 过 程 及 其 发 挥 的 功能 制 
定 了 一 套 统一 的 分 类 系统 , 希望 通过 这 种 分 类 避免 以 前 发 生 的 混乱 现象 , 同时 便于 研究 者 从 
分 类 直接 了 解 某 一 类 非 编 码 基 因 的 功能 。 在 NONCODE 数据 库 的 "过 程 功 能 "分 类 系统 中 ， 
细胞 过 程 指 以 脱氧 核糖 核酸 、 核 糖 核酸 、 和 蛋白 质 三 者 为 作用 底 物 的 生物 反应 ， 如 脱氧 核糖 核 
酸 的 复制 、 修 饰 ， 核 糖 核酸 的 可 变 剪 接 、 甲 基 化 修饰 ， 和 蛋白 质 的 输 运 、 降 解 等 ， 每 条 非 编 码 
基因 都 以 其 在 一 个 细胞 过 程 中 所 行使 的 功能 来 命名 , 整个 命名 由 下 划 线 所 连接 的 两 级 到 三 级 
关键 字 给 定 。 第 一 级 关键 字 是 DNA，RNA，Protein， 代 表 在 一 个 细胞 过 程 中 哪个 分 子 类 型 


zu 
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为 大 键 成 分 ， 第 二 个 关键 字 
用 第 三 个 关键 字 来 进一步 解释 
糖 核酸 剪接 的 过 程 ， 主 要 分 子 是 RNA, 
splicing (剪接 )， 因 此 snRNA U1 将 

剪接 ) 这 个 类 里 ， 


i] 
H 


M 


UE 
具体 的 功能 。 


会 被 分 配 到 RNA_processing_splicing (核糖 核酸 -过 程 - 
而 RNase P RNA 参与 了 转移 核糖 核酸 5 端 成 熟 的 过 程 ， 切 割 转移 核糖 核 


个 过 程 ， 如 果 这 个 过 程 存在 更 多 的 细节 分 支 ， 则 
侈 如， 非 编 码 基因 snRNA U1， 它 参与 了 信使 核 
过 程 是 对 RNA 的 加 工 处 理 ， 更 细节 的 具体 过 程 是 


酸 前 体 5' 端 ， 因 此 分 配 到 RNA_processing_ cleavage 〔( 核 糖 核酸 -过 程 - 解 理 )。“ 过 程 功 能 ” 
分 类 系统 是 第 一 个 尝试 把 非 编码 基因 参与 的 过 程 及 行使 的 功能 整合 在 一 起 的 一 个 分 类 系统 。 
将 来 随 着 我 们 对 非 编码 基因 认识 的 深入 ，NONCODE 数据 库 的 内 容 也 会 进一步 地 扩充 ， 这 
个 分 类 系统 也 会 得 到 进一步 的 完善 ， 使 得 数据 库 能 充分 地 得 到 利用 。 有 关 " 过 程 功 能 "分 类 系 
统 的 详细 情况 参见 表 1。 
zl. a 

Pf《〈 过 程 功能 相对 应 的 传统 类 

DNA imprinting XIST, roX , H19, MHM, KvLQTI-AS, Tsix, Air 

DNA packaging pRNA 

DNA repair RNAa, b,c, d 

DNA replication initiation RNAII 

DNA replication regulation ctRNA, RNAI 

DNA replication | repression incA, RNAI 

DNA_ stability telomerase RNS 

DNA transcription _ initiation RNAII 

DNA transcription regulation Inc RNA, copA RNA, SRA 

DNA transcription _ regulation of RNA polymerase 6S RNA, 7SK 

DNA transcription repression RNAI, GevB RNA 

RNA editing gRNA 

RNA modification _ methylation snoRNA 

RNA modification _ methylation & pseudouridylation scaRNA 

RNA_ modification _ pseudouridylation snoRNA 

RNA_ processing _ cleavage RNase P RNA, RNase MRP RNA, snoRNA 

RNA processing splicing snRNA, self-splicing ribozyme RNA, PAN 

RNA_ reverse _ transcription msrRNA 

RNA_ translation _ enhancement csrB RNA, DsrA RNA 

RNA translation _ regulation ANTI-RAF1, RprA, sok RNA, VA RNA, RyhB, sar RNA, NaPi-2b1, 5.3S RNA, aHIF 


RNA_ translation _ 
RNA translation _ 


suppression 
surveillance 
RNA _translocation 

Protein _ transportation 


Miscfunction _ mRNAIike 


Miscfunction _ snm 


miRNA, DicF, Spot 42, Finp, MicF, OxyS, flmB, PrrB RsmZ, NTT, GevB DNA, etc. 


tmRNA 

ScYC RNA, hsr-omega RNA, Xlsirt 

SPR  7SL, RNA, SRP. 4.58 RNA 

BORG, IGF2AS, CR20, meuRNA, Rian, Ks-1, GNAS1-as RNA, IPW, etc. 


Bsr RNA, Y RNA, dsrB, vault RNA, 4.5S RNA, 6Sa RNA, G8, etc. 


1.2 微型 核糖 核酸 编码 CmiRNA-encoding) 非 编码 基因 的 预测 和 验证 


最 近 几 年 的 几 个 重要 模式 生物 的 全 基因 


组 芯片 实验 和 全 长 互补 脱氧 核糖 核酸 (CDNA) 


文库 建设 都 发 现 基 
一 些 相似 之 处 : 长 度 都 很 长 , 都 
日 是 又 没有 蛋白 编码 杠 ， 


= 


因此 被 称 为 “信使 核糖 核酸 样 mRNA-like) 非 编码 基 


因 组 上 存在 着 大 量 长 的 非 编码 转录 本 。 它 们 和 编码 蛋白 的 信使 核糖 核酸 有 
| RNA 聚合 酶 I 转录 ,转录 后 都 存在 剪接 、 加 帽 加 尾 现 


象 ， 


因 » [46-51] 


已 经 发 现 的 信使 核糖 核酸 样 非 编码 基 


[52], 


TF 


ren 
wR 
hue) 


非 编码 基因 
酸 样 非 编码 基 


因 [53] 


因 的 数 
糖 核 酸 文库 中 发 现 有 约 4000 个 全 长 互补 脱氧 核糖 核酸 是 
; 类 似 的 ， 在 人 类 全 长 互补 脱氧 核糖 核 
少数 信使 核糖 核酸 样 非 编码 基因 
折 CMarahrens) 等 人 发 现 肉 性 小 鼠 上 的 信使 核糖 核酸 样 非 编 码 基因 


惊人 , 比如 在 FANTOM 小 鼠 全 长 互补 脱氧 核 
缺乏 蛋白 质 编 码 读 框 的 信使 核糖 核 
酸 文库 中 发 现 了 近 5800 个 信使 核 
的 功能 已 经 得 到 证 实 ， 例 如 ， 马 
Xist 如 果 被 敲 除 ， 
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生物 复杂 生物 网 络 及 非 编 码 RNA 参与 的 双色 网 络 


将 会 影响 小 鼠 X 染色 体 的 选择 性 失 活 654; 杨 (Young) 等 人 发 现 对 新 生 小 鼠 视 网 膜 细胞 中 的 
信使 核糖 核酸 样 非 编 码 基 因 TUGI 的 微型 核糖 核酸 干涉 会 导致 小 鼠 眼 发 育 的 畸形 四， 威廉 
汉 姆 (Willingham) 等 人 发 现 小 鼠 信 使 核糖 核酸 样 非 编 码 基 因 NRON 是 转录 因子 NEAT 的 抑 
制 子 5%。 然 而 绝 大 部 分 信使 核糖 核酸 样 非 编 码 基 因 的 功能 和 作用 机 人 制 仍然 是 未 知 的。 微型 
核糖 核酸 (MicroRNA) 是 一 种 广泛 存在 于 高 等 动物 和 植物 中 的 微小 的 非 编 码 基因 ， 通 过 控 
制 信使 核糖 核酸 的 稳定 性 或 抑制 信使 核糖 核酸 的 翻译 对 生命 活动 起 到 重要 调控 作用 "9,。 根 
据 基 因 组 的 定位 ,微型 核糖 核酸 可 以 被 分 为 三 类 : OD 位 于 蛋白 质 转录 区 内 含 子 的 微型 核糖 
核酸 ;(2) 位 于 非 编码 转 录 区 内 含 子 的 微型 核糖 核酸 ;(3) 位 于 非 编 码 转录 区 外 显 子 的 微型 
核糖 核酸 。 我 们 推测 存在 更 多 的 信使 核糖 核酸 样 非 编码 核糖 核酸 , 在 它们 的 外 显 子 中 编码 微 
型 核糖 核酸 。 它 们 构成 了 一 类 特殊 的 非 编码 核糖 核酸 ， 我 们 称 之 为 “微型 核糖 核酸 编码 的 非 
编码 核糖 核酸 ”(CmicroRNA-encoding ncRNA (me-ncRNA)). ZEA SH, 我们 通过 分 析 老 鼠 
基因 组 中 一 些 编码 已 知 微型 核糖 核酸 的 20 条 me-ncRNA， 设 计 了 一 种 新 的 预测 方法 
(PriMir)， 并 利用 该 方法 在 FANTOM3 数据 库 的 34030 条 微型 核糖 核酸 样 非 编码 核糖 核酸 

(microRNA-like ncRNA ) 中 预测 了 65 条 新 的 候选 me-ncRNA， 其 中 24 条 得 到 了 生物 实验 
的 证 实 。 我 们 对 这 些 已 知 的 me-ncRNA 和 所 预测 的 候选 me-ncRNA 进行 了 进一步 分 析 ， 发 
现 它们 都 含有 一 些 保守 的 模 体 Cmotif)。 我 们 的 这 项 工作 发 现 的 me-ncRNA 是 一 类 新 的 非 编 
码 核糖 核酸 。 我 们 还 对 一 些 功 能 未 知 信使 核糖 核酸 样 非 编 码 核糖 核酸 给 出 了 新 的 解释 。 


FANTOM3 中 的 类 mRNA ncRNA:34030 来 自 miRBase 版 本 8.0 中 的 Pre-miRNAS:270 


用 RNAfold 预 测 RNA 二 级 结构 选择 “标准 ” 茎 环 :220 


提取 “发 夹 ”: 183,646 


顺序 长 度 >45nt;， 碱 基 配 对 之 14bp 标注 miRNA 在 发 来 中 的 位 置 


4889 
计算 每 个 特征 值 的 


删除 元 余 后 : 4463 | mE: fj) 
计算 每 个 特征 值 频率 :hi() 


基于 PMS 模 型 预测 和 打分 pre- 
miRNA: 


S»7.00:84 创建 PMS 和 矩阵 : 


最 终 预测 的 me-ncRNA:80 A, - PEDAU) n mimo0 < i mao 
min(A;, ) 


如 j < min(xi) a j > max(xi) 
ped 


2. PriMir 的 流程 图 


我 们 还 用 PriMir 来 从 所 有 的 信使 核糖 核酸 样 非 编码 核糖 核酸 中 寻找 me-ncRNA。PriMir 
通过 扫描 所 有 信使 核糖 核酸 样 非 编 码 核糖 核酸 的 二 级 结构 过 滤 出 序列 长 度 、 碱 基 配 对 数目 和 
已 知 微型 核糖 核酸 前 体 (pre-miRNA) FFA HAMS; 然后 通过 小 鼠 大 鼠 间 保守 性 分 析 过 
滤 出 所 有 在 小 鼠 和 大 鼠 之 间 保 守 的 茎 环 结构 ;最 后 通过 PriMir 打分 矩阵 (PriMir score matrix, 
PMS matrix) 预测 出 所 有 可 能 的 微 核糖 核酸 前 体 基因 以 及 它们 对 应 的 me-ncRNA。 图 2 显示 
的 是 一 个 PriMir 方法 的 流程 图 。 为 了 建立 训练 集 ， 我 们 分 析 了 从 miRBase8.0 中 得 到 的 270 


38 


第 8 卷 第 1 期 信息 技术 快报 Vol.8 No.1 
Information Technology Letter Jan. 2010 

条 微 核糖 核酸 前 体 ， 滤 掉 了 其 中 茎 环 结构 长 度 太 短 〈 小 于 45nt) 以 及 微型 核糖 核酸 成 熟 体 
序列 位 置 特殊 〈 在 茎 环 结构 的 环 上 ) 的 特例 ,这样 得 到 了 我 们 的 训练 集 共 220 条 已 知 的 微 核 
糖 核酸 前 体 序列 。 我 们 还 需要 建立 一 个 由 非 微 核 糖 核酸 前 体 茎 环 结构 组 成 的 背景 集 。 我 们 用 
RNAfold 预测 了 FANTOM3 中 所 有 34030 条 信使 核糖 核酸 样 非 编码 核糖 核酸 的 二 级 结构 ， 

然后 PriMir 根据 两 个 条 件 从 这 些 二 级 结构 上 提取 满足 下 述 两 个 条 件 的 茎 环 结构 : (1) A 
结构 的 序列 长 度 大 于 45nt; (2) 茎 环 结构 上 的 配对 碱 基数 大 于 28。 这 样 我 们 得 到 了 184000 
个 茎 环 结构 。 这 184000 个 茎 环 结构 中 存在 着 我 们 需要 鉴定 发 现 的 真实 的 未 知 微 核糖 核酸 前 
本， 但 大 部 分 肯定 都 是 非 微 核糖 核酸 前 体 茎 环 结构 ， 因 此 我 们 用 这 184000 个 茎 环 结构 作为 
背景 集 。 在 确定 了 训练 集 和 背景 集 之 后 我 们 就 可 以 通过 分 析 在 训练 集 和 背景 集中 11 个 特征 
参数 取 值 的 差异 建立 PMS FRE ( 见 图 2)。 对 从 所 有 34030 条 信使 核糖 核酸 样 非 编码 核糖 核 
酸 的 三 级 结构 上 提取 的 184000 个 茎 环 结构 我 们 根据 其 序列 在 小 鼠 和 大 鼠 之 间 的 保守 性 进行 
了 进一步 过 滤 。 为 了 确定 保守 性 的 阔 值 ， 我 们 将 训练 集 里 220 条 已 知 的 小 鼠 微 核糖 核酸 前 
体 与 大 鼠 的 基因 组 用 BLASTN 进行 了 比 对 。 结 果 显 示 其 中 160 条 微 核糖 核酸 前 体 满 足以 下 
两 个 标准 : OD 比 对 上 的 序列 长 度 超过 50nt; (2〉 比 对 的 辨识 (identity) 值 大 于 等 于 9896. 
因此 PriMir 根据 这 两 个 标准 对 184000 个 葵 环 结构 进行 进一步 过 滤 ， 得 到 了 4463 条 在 小 鼠 
大 鼠 间 保守 的 苓 环 。 其 中 包括 18 条 已 知 的 微 核糖 核酸 前 体 。 然 后 PriMir H PMS FAME XT 4463 
条 保守 茎 环 打分 。 为 了 减少 假 阳 性 的 数量 ，PriMir 打分 “7” 被 用 作 “ 截 断 (cutoff)” 值 。 

这 是 一 种 严格 的 评判 标准 ， 因 为 训练 集 里 220 条 已 知 的 小 鼠 微 核糖 核酸 前 体 仅 有 73% 的 评 
分 在 这 个 数值 以 上 。 这 些 PriMir 打分 分 值 大 于 等 于 7 的 微 核糖 核酸 前 体 被 认定 为 可 能 的 微 
核糖 核酸 前 体 候选 者 。 这 样 我 们 从 4463 条 保守 茎 环 中 最 终 得 到 84 条 微 核糖 核酸 前 体 候 选 基 
因 ， 它 们 对 应 着 80 条 可 能 的 微 核糖 核酸 前 体 。 其 中 15 条 微 核糖 核酸 前 体 属 于 miRBase8.0 
收录 的 已 知 微 核糖 核酸 前 体 ， 它 们 对 应 着 15 条 已 知 me-ncRNA。 因 此 我 们 称 剩 下 的 69 AA 
环 及 其 对 应 的 65 条 信使 核糖 核酸 样 非 编 码 核糖 核酸 为 微 核糖 核酸 前 体 和 me-ncRNA 候选 基 
I. 


Pre-miRNA 
10 号 延伸 候选 Pre-miRNA T Pre-miRNA Pre-miRNA E 
则 碱 基 配对 um Pre-miRNA ^, 7,75 re-mi 
ENSEM 的 5 端 的 GC 内 容 REKE 碱 基 配 对 i 8 
x. 
G 
C 一 C 
5G-U-G-U-U-C-A-Q/ KU Lue uil Y 
Sco cae ee AA Y 
epe TERE cou d 
. : f PRIA A-u-A 
候选 Pre-miRNA miRNA miRNA 初 始 偏离 
的 3' 端 miRNA 的 ” 碱 基 配 对 
C 内 容 距 环 段 距 离 


Pre-miRNA 的 mfe:-19.52 
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PriMir 方法 的 灵敏 性 可 以 从 对 20 条 已 知 me-ncRNA 的 预测 情况 得 到 。 由 于 我 们 预测 
4 了 其 中 的 15 A. 灵敏 性 应 该 在 75% 以 上 。 由 于 信使 核糖 核酸 样 非 编 码 核糖 核酸 的 表达 往 
主 是 组 织 特 异性 的 或 发 育 阶 段 特异 性 的 , 而 且 信 使 核糖 核酸 样 非 编码 核糖 核酸 的 表达 水 平 往 
往 很 低 ， 对 于 预测 结果 特异 性 的 估计 就 比较 困难 。 为 了 估计 PriMir 预测 结果 的 特异 性 ， 我 
们 设计 了 一 张 有 168 个 26-nt 探 针 的 微 阵列 (microarray)。 这 些 探 针 对 应 着 预测 的 84 条 微 
核糖 核酸 前 体 的 茎 对 应 的 双 辟 。 为 了 防止 杂交 时 长 的 核糖 核酸 的 信号 干扰 , 我们 从 提取 的 总 
核糖 核酸 中 滤 掉 了 长 度 大 于 200nt 的 核糖 核酸 分 子 。 对 初生 小 鼠 脑 组 织 和 胸腺 组 织 、2 个 月 
雄性 成 年 鼠 脑 组 织 以 及 15 天 小 鼠 胚 胎 提 取 核 糖 核酸 杂交 人 微 阵 列 信和 号， 结果 分 析 显 示 有 46 
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个 探 针 有 显著 信号 。 它 们 对 应 着 46 条 不 同 的 微型 核糖 核酸 , 40 条 不 同 的 微 核糖 核酸 前 体 和 
39 条 me-ncRNA (其 中 包括 15 条 已 知 me-ncRNA)， 其 中 有 6 条 微 核 糖 核 酸 前 体 的 双 辟 都 
能 检测 到 显著 信号 。15 条 属于 miRBase8.0 收录 的 已 知 微型 核糖 核酸 中 有 14 条 能 够 检测 到 
显著 信和 号， 说明 我 们 设计 的 微 阵列 运行 良好 。 对 于 经 过 微 阵 列 检 测 出 来 的 32 条 新 的 微型 核 
糖 核酸 ,我 们 通过 检索 miRBase9.0 发 现 其 中 5 条 已 经 被 最 新 收录 ,， 剩 下 的 27 条 微型 核糖 核 
酸 我 们 对 它们 采用 Stem-loopRT-PCR 加 测序 的 方法 进行 了 进一步 严格 的 检验 , 结果 显示 所 有 
新 的 微型 核糖 核酸 都 是 真实 的 。 这 样 65 条 me-ncRNA 候选 基因 中 有 24 条 通过 了 我 们 严格 
的 实验 检验 。 在 我 们 的 工作 正在 进行 时 ， 又 有 10 条 微型 核糖 核酸 被 其 他 实验 室 发 现 。 这 些 
微型 核糖 核酸 对 应 着 我 们 工作 中 的 5 条 me-ncRNA 候选 基因 和 4 条 已 知 me-ncRNA 基因 。 

其 中 一 条 me-ncRNA 候选 基因 通过 了 我 们 的 PriMir 预测 ， 但 我 们 的 微 阵 列 和 RT-PCR 加 测 
序 的 方法 没有 检测 出 来 。 这 样 如 果 我 们 把 我 们 自己 的 微 阵 列 和 RT-PCR 加 测序 实验 验证 以 
及 其 他 实验 室 发 表 的 文献 支持 都 算 在 内 的 话 , PriMir 方法 的 特异 性 应 该 是 50% ((39+1)/80 )。 
当然 如 果 在 我 们 的 实验 中 考察 更 多 的 小 鼠 组 织 和 发 育 时 期 样本 , 我 们 相信 将 会 得 到 更 高 的 特 
异性 分 值 。 


= 进一步 ,我 们 对 me-ncRNA 的 序列 保守 性 和 序列 motif 进行 了 分 析 。 为 了 衡量 me-ncRNA 
人 的 保守 性 ， 我 们 根据 小 鼠 基因 组 相对 于 17 BARES YE) PhastCons 打分 对 me-ncRNA 的 每 
N 一 个 碱 基 的 保守 性 评分 ， 然 后 用 整 条 me-ncRNA 所 有 碱 基 评 分 的 均值 (average PhastCons 
Y scores, APCSs) 做 为 一 条 me-ncRNA 的 保守 性 评分 。65 条 候选 me-ncRNAs 的 APCSs 平均 
为 41% ， 这 个 值 远 远 高 于 20 条 已 知 的 me-ncRNA 的 APCs 均值 (26% )。 造 成 这 20 条 已 知 
A me-ncRNA 保守 性 低 的 原因 可 能 是 由 于 统计 上 的 涨 落 ， 因 为 20 条 序列 太 少 。 另 一 个 可 能 的 
e 原因 是 me-ncRNA 对 整 条 序列 的 保守 性 没有 要 求 。 因 此 我 们 又 统计 了 me-ncRNA 的 微 核糖 
核酸 前 体 部 分 的 序列 保守 性 。 结 果 显 示 已 知 和 预测 me-ncRNA 的 微 核糖 核酸 前 体 部 分 的 平 
IJ APCs 分 别 是 88% 和 72%， 都 大 大 高 于 整 条 me-ncRNA 序列 的 保守 性 得 分 。 通 过 分 析 已 
知 和 预测 的 me-ncRNA 我 们 在 me-ncRNA 的 内 部 找到 了 一 个 内 部 motif IM1， 其 保守 序列 是 
CNCTUNCTU( 见 图 4(a))。 我 们 根据 IM1I 建立 了 一 个 位 置 权重 矩阵 (Positional Weight Matrix, 
ve PWM), 然后 用 这 个 矩阵 搜索 了 所 有 信使 核糖 核酸 样 非 编 码 基因 序列 。 和 矩阵 打分 阔 值 被 定 为 
© 保证 50% 的 确证 me-ncRNA (20 条 已 知 的 加 上 24 条 实验 确证 的 ) 上 有 IMI 出 现 。 结 果 显 
= 示 在 65% 的 已 知 me-ncRNA 和 42% 的 预测 me-ncRNA 上 有 IM1， 而 在 所 有 的 信使 核糖 核酸 
样 非 编码 基因 上 有 23% 的 序列 有 IM1 ( 见 图 4(b))。 因 为 内 部 motif IM1 在 信使 核糖 核酸 样 
非 编 码 基 因 上 出 现 的 比例 也 比较 高 ， 因 此 我 们 进一步 分 析 了 IM1 在 序列 上 出 现 的 频率 和 
PriMir 方法 对 序列 的 打分 之 间 的 关系 。 我 们 用 PriMir 对 一 条 信使 核糖 核酸 样 非 编 码 核糖 核 
酸 上 所 有 茎 环 结构 打分 的 最 高 分 作为 此 信使 核糖 核酸 样 非 编码 核糖 核酸 的 得 分 。 对 所 有 信使 
核糖 核酸 样 非 编码 核糖 核酸 的 分 析 结 果 发 现在 序列 上 出 现 IM1 的 次 数 和 序列 的 PriMir 得 4 
两 者 之 间 存 在 强 相关 性 〈 决 定 系 数 (R-squared ) = 0.91，p 值 = 2.2655 〈 见 图 4 (b))， 也 就 
是 说 序列 上 存在 微型 核糖 核酸 的 可 能 性 (PriMir 得 分 ) 越 高 则 序列 上 存在 IM1 的 可 能 性 和 
数目 就 越 大 。 另 一 方面 ， 茎 环 结构 越 保守 则 越 可 能 是 真实 的 微型 核糖 核酸 。 因 此 我 们 认为 如 
GE IMI 确实 和 序列 是 否 编码 微型 核糖 核酸 相关 , 那么 加 入 保守 性 限制 条 件 后 , IM1 和 PriMir 
得 分 间 的 相关 性 将 会 下 降 ， 这 是 因为 在 有 了 严格 的 保守 性 要 求 的 前 提 下 PriMir RIRAN 
结构 仍然 可 能 编码 微型 核糖 核酸 ， 因 而 仍然 存在 大 量 的 IM1 motif。 进 一 步 分 析 的 结果 和 我 
们 预测 一 致 ， 在 具有 保守 茎 环 结构 的 3670 条 mRNA-like ncRNA 的 子 集中 ，IM1 和 PriMir 
得 分 间 的 相关 性 大 大 降低 〈 决 定 系数 (R-squared) = 0.1, pf = 0.03)( 见 图 4(b))， 而 其 
中 出 现 IM1motf 的 序列 的 比例 却 比 全 部 信使 核糖 核酸 样 非 编码 核糖 核酸 集合 要 高 。 综 合 以 
上 分 析 我 们 认为 IM1 motif 确实 和 me-ncRNA 编码 微型 核糖 核酸 存在 关系 ,IM1 的 发 现 将 有 
助 于 我 们 对 me-ncRNA 的 进一步 预测 ， 同 时 IM1 在 me-ncRNA 编码 微型 核糖 核酸 过 程 中 的 
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功能 还 需要 我 们 进一步 深入 研究 。 
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Él4. Me-ncRNA 的 内 部 motif 


3 ”复杂 生物 网 络 与 系统 生物 学 


系统 生物 学 认为 生命 体 是 一 个 复杂 的 动态 变化 的 网 络 ， 对 于 生命 的 研究 需要 从 整体 出 
发 , 研究 生命 网 络 中 的 这 些 复 杂 的 相互 作用 和 调控 关系 , 而 不 是 仅仅 孤立 地 研究 一 个 个 网 络 
中 的 节点 “。 最 初 的 系统 生物 学 研究 由 于 实验 技术 限制 主要 是 停留 在 对 计算 机 模拟 系统 的 
理论 研究 。 随 着 一 系列 生物 的 全 基因 组 被 测定 ， 以 及 全 基因 组 营 片 、 酵 和 母 双 杂 交 、 染 色 质 免 
疫 共 沉 淀 微 阵列 等 各 种 高 通 量 实验 技术 的 出 现 四 中 ,从 全 局 观测 整个 生物 网 络 的 拓扑 结构 以 
及 网 络 中 节点 的 定量 变化 成 为 可 能 : 通过 分 析 全 基因 组 序列 ， 预 测 编码 蛋白 质 基因 和 非 编码 
AED], 我 们 可 以 迅速 确定 生物 网 络 中 大 部 分 的 节点 ; 通过 酵母 双 杂 交 技 术 大 规模 检测 蛋白 质 
之 间 的 相互 作用 , 我 们 可 以 找到 生物 网 络 中 的 无 向 边 ; 通过 染色 质 免 疫 共 沉淀 微 阵列 技术 检 
测 转录 因子 在 染色 质 上 的 特异 结合 位 点 ,我 们 可 以 确定 生物 网 络 中 的 有 向 边 ; 最 后 通过 全 基 
因 组 芯片 等 基因 芯片 技术 我 们 可 以 动态 地 定量 观测 生物 网 络 中 各 节点 的 表达 水 平 。 虽 然 这 些 
高 通 量 的 实验 技术 不 可 避免 地 存在 着 各 种 噪音 和 测量 偏差 , 它们 仍然 为 系统 生物 学 研究 提供 
了 基础 。 现在， 系统 生物 学 已 经 成 为 了 一 种 新 的 生命 科学 研究 的 工作 模式 。 它 从 多 数据 源 整 
合 出 发 ， 以 网 络 分 析 为 基础 ， 通 过 统计 学 、 信 息 学 、 人 工 智能 等 各 种 手段 ， 对 各 种 生命 现象 
做 出 预测 并 指导 传统 生物 实验 对 预测 做 出 验证 。 这 种 新 的 工作 模式 极 大 地 促进 了 生命 科学 研 
究 的 进展 ， 使 后 基因 组 时 代 的 系统 生物 学 研究 进入 了 一 个 高 速 发 展 的 新 时 期 。 


人 类 基因 组 计划 的 完成 是 生命 科学 发 展 的 一 大 步 , 下 一 步 将 由 功能 基因 组 学 来 研究 已 破 
译 基 因 的 功能 并 控制 它们 ， 最 终 为 人 类 征服 自然 、 战 胜 疾病 服务 。 正 如 Millenium 
Pharmaceutical 公司 的 罗伯特 . 泰 珀 (Robert Tepper) 所 说 ,“ 我 们 知道 了 词典 里 面 有 什么 , 现 
在 我 们 需要 知道 每 个 词 的 意思 ”尽管 基因 序列 的 99% 已 经 被 破译 ,但 是 只 有 10% 的 基因 的 
机 能 是 已 知 的 ， 如 何 获 得 更 多 基因 功能 成 为 功能 基因 组 学 的 主要 研究 课题 。 很 长 时 间 以 来 ， 
研究 基因 的 功能 都 是 针对 单个 基因 来 进行 的 ， 其 思路 是 “序列 一 结构 一 功能 ”。 认 为 一 个 基 
因 表 达 一 个 蛋白 质 ， 一 个 蛋白 质 有 一 个 结构 ， 一 个 结构 完成 一 个 功能 。 相 对 于 后 基因 组 时 代 
的 功能 基因 组 研究 目标 来 说 ， 这 种 “一 次 一 个 基因 ”的 研究 模式 不 但 在 效率 上 已 经 完全 不 能 
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适应 要 求 , 更 严重 的 是 这 种 研究 方式 本 身 就 无 法 揭示 生命 活动 的 复杂 性 和 本 质 。 现在 越 来 越 
多 的 研究 表明 , 一 个 基因 的 单独 表达 往往 不 能 主 字 一 个 生物 学 事件 的 发 生 。 生 物 的 功能 一 般 
都 是 通过 一 批 基 因 的 同时 表达 ,一 批 蛋 白质 的 协同 作用 来 实现 的 。 在 一 个 生物 学 事件 中 ， 存 
在 着 复杂 的 基因 转录 调控 网 络 来 控制 相关 基因 的 同时 表达 , 还 存在 着 各 种 蛋白 质 ,， 甚至 核糖 
核酸 互相 结合 的 相互 作用 网 络 。 所 以 改变 原来 的 “一 次 一 个 基因 ”研究 方式 和 “序列 一 结 
构 一 功能 ”思路 ， 以 系统 生物 学 的 观点 ， 采 用 “相互 作用 一 网 络 一 功能 ”新 思路 ， 整 合 基 
因 和 蛋白质 的 不 同方 面 、 不 同 层次 的 信息 ， 进 行 基因 功能 分 析 ， 已 经 成 为 当前 功能 基因 组 研 
究 的 新 方向 。 在 对 于 编码 基因 的 研究 中 ,基于 蛋白质 相互 作用 网 络 以 及 基因 转录 调控 网 络 的 
研究 已 经 展现 了 网 络 研究 的 巨大 威力 : 通过 网 络 聚 类 寻找 功能 模块 , 根据 网 络 邻居 节点 预测 
蛋白 质 功能 , 研究 网 络 模 体 的 拓扑 结构 和 信号 传导 特性 ,这些 基 于 网 络 的 研究 已 经 成 为 生物 
学 研究 的 新 武器 。 


3.1 蛋白 质 相 互 作用 网 络 的 谱 分 析 方 法 


后 基因 组 时 代 的 一 个 巨大 的 挑战 就 是 如 何 理解 基因 的 信息 是 如 何 导致 基因 产物 间 相 互 
协同 作用 ， 以 及 它们 之 间 又 是 如 何在 时 间 和 空间 上 行使 生物 功能 ,最 终 彼此 间 相 互 作用 形成 
个 有 机 体 。 因 此 , 发 展 一 套 可 依赖 的 蛋白 组 学 的 方法 来 更 好 地 理解 蛋白 功能 是 非常 重要 的 。 
基因 组 学 的 方法 已 经 被 利用 来 根据 序列 特征 推测 大 量 的 基因 的 功能 ,但 是 众所周知 蛋白 在 生 
化 层次 上 很 少 是 单独 起 作用 的 , 而 是 与 其 他 的 蛋白 相互 作用 形成 整体 来 实现 细胞 的 某 些 特定 
的 任务 。 系 统 的 功能 要 比 他 们 各 部 分 分 别 体现 的 功能 更 丰富 。 传 统 上 讲 ， 和 蛋白 相互 作用 的 研 
究 是 对 从 遗传 、 生 化 和 生理 角度 上 讲 在 某 个 时 刻 的 一 些 蛋 白 进行 研究 。 现 在 我 们 认识 到 这 种 
对 细胞 内 的 遗传 和 生化 通路 拼图 式 的 研究 已 经 阻碍 了 我 们 对 细胞 作为 整体 的 生物 过 程 的 进 
一 步 的 认识 。 而 蛋白 复合 物 、 细 胞 通路 、 和 蛋白 相互 作用 等 基本 的 组 成 部 分 才 对 蛋白 功能 具有 
决定 性 的 作用 。 所 以 , 可 以 确信 所 有 的 生物 过 程 从 本 质 上 更 精确 地 说 都 是 通过 和 蛋白 相互 作用 
体现 出 来 的 。 最 近 三 年 来 发 展 出 了 高 通 量 的 相互 作用 的 探测 方法 ， 比 如 酵母 双 杂 交 系 统 、 基 
于 质谱 技术 的 蛋白 纯化 方法 、 具 有 相关 信息 的 表达 谱 分 析 方 法 、 遗 传 相互 作用 网 络 方法 以 及 
其 他 的 基于 基因 相关 性 的 计算 模型 的 相互 作用 预测 方法 (基因 融合 和 分 裂 、 基 因 令 居 和 共 出 
现 基因 等 ), 它们 在 若干 个 生物 (如 酿酒 酵母 (S. cerevisiae)、 秀 丽 线虫 (Caenorhabditis elegans) 
和 幽门 螺旋 杆菌 (Helicobacter pylori)) 产生 了 数量 可 观 的 蛋白 相互 作用 的 大 规模 数据 中 1。 
这 些 高 通 量 大 规模 数据 为 更 全 面 了 解 细胞 中 的 遗传 和 生化 现象 开启 了 一 扇 大 门 。 随 后 ， 儿 种 
o 方法 被 成 功 地 应 用 于 这 方面 的 研究 。 比 如 , RE HERI TE CSchwikowski ) R12: TH C Hishigaki ) 
等 成 功 地 利用 相互 作用 邻居 来 预测 未 知 重 白 的 功能 。 莫 (Ge ， 音 译 ) 等 首次 为 具有 相似 表 
达 谱 的 蛋白 具有 倾向 于 具有 和 蛋白 相互 作用 提供 了 证 据 。 弗 雷 泽 〈Fraser) 等 揭示 了 具有 保守 
的 相互 作用 的 蛋白 与 他 们 的 突变 率 呈 现 负 相关 性 5 所 有 的 这 些 研 究 都 预示 着 对 于 酿酒 酵 
母 的 相互 作用 网 络 可 能 具有 和 其 他 复杂 网 络 不 同 的 性 质 。 相 互 作 用 的 拓扑 模式 是 研究 蛋白 的 
生物 功能 信息 的 重要 的 出 发 点 之 一 ， 因 此 我 们 需要 发 展 一 些 方法 来 挖掘 和 理解 相互 作用 网 
络 。 这 里 我 们 把 已 经 在 其 他 领域 成 功 应 用 的 谱 分 析 方法 用 到 蛋白 组 的 研究 中 , 来 识别 蛋白 相 
互 作 用 网 络 中 的 拓扑 模式 ， 即 准 团 (quasi-cliqgue]) 和 准 二 部 图 (quasi-bipartite)。 有 趣 的 是 ， 我 
们 发 现在 同一 组 的 蛋白 具有 相似 的 和 蛋白 功能 。 更 重要 的 是 对 于 酿酒 酵母 的 近 三 分 之 一 的 未 知 

功能 的 蛋白 ， 这 种 方法 提供 了 一 种 基于 和 蛋白 结构 预测 蛋白 功能 的 手段 。 


谱 分 析 是 用 来 揭示 海量 复杂 数据 关系 的 深层 结构 的 一 种 有 效 的 方法 。 作 为 一 个 著名 的 范 
例 ， 戴 维 . 吉 布 杰 (David Gibson), FA. KAHA (Jon Kleinberg) 和 普 拉 布 哈 卡尔 . 拉 加 
BU (Prabhakar Raghavan) 在 万 维 网 (World Wide Web) 链接 结构 的 信息 发 掘 领域 做 了 出 色 
TEPSI, RA, AER CWorld Wide Web) 是 由 数量 不 断 增 加 的 网 页 通过 超 链 接 与 
其 他 网 页 链接 而 成 。 除 了 万 维 网 结构 的 复杂 性 ， 谱 分 析 方 法 还 成 功 地 发 现 了 “权威 点 ” 


i 


q 
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(authoritative) fU ^X ri" Chub) 等 数据 信息 源 。 我 们 把 谱 分 析 方 法 应 用 于 复杂 的 蛋白 一 蛋 
白 相 互 作 用 网 络 来 识别 有 趣 的 拓扑 结构 。 在 这 个 方法 中 ， 网 络 被 表示 成 一 个 无 向 的 图 
G(V,E)， 也 就 是 说 节点 集合 包含 每 个 蛋白 作为 节点 : V={P, R Bj, IIS E US 
E={(B,P) 具 有 相互 作用 的 蛋白 R 和 P;) 。 对 称 的 nxn 链接 矩阵 可 以 定义 成 A= (ay) > 


链接 矩阵 A 的 谱 本 质 上 说 是 能 通过 相互 作用 传递 的 节点 属性 的 一 种 重要 的 量度 ,可 以 给 
每 个 节点 一 个 分 数 x 来 表示 它 的 “重要 性 ”。 一 个 共有 高 分 数 的 节点 将 通过 相互 作用 增加 和 
它 相 链 节点 的 得 分 ， 即 两 个 相互 作用 节点 的 得 分 相互 加 强 ， 可 通过 循环 定义 它们 的 得 分 


"Ei 


AX; = > ay xX; 
j=1 


吉布森 等 人 的 迭代 算法 介 
了 一 种 中 断 这 种 循环 的 方法 .有趣 
的 是 无 论 任何 的 初 值 情 况 下 ，XX; 
都 将 聚集 到 一 个 特定 的 点 。 可 以 证 
明 这 个 点 正 是 矩阵 A 的 一 个 本 
征 向 量 。 这 就 证 明 其 性 质 是 相互 作 
用 的 一 个 本 质 属性 。 不仅 如 此 , 因 
为 A FE BE ET PRE BE, TA A AS 
征 向 量 都 是 正 交 的 。 这 就 意味 着 可 
能 对 应 的 属性 也 是 正 交 的 。 换 种 说 
法 就 是 每 个 本 征 向 量 可 能 表示 J 
一 种 特别 的 其 它 向 量 没 有 的 性 质 。 
AIER STER NUN 
复杂 相互 作用 网 络 的 隐 含 结构 。 我 
们 发 现 对 于 每 个 对 应 一 个 正 的 本 


I 


LI 


MRC sa VILI ga: 
ANN 
a 


V IVELOSSC] 
in; a MS na 


n red = 

JA SENSN A 征 值 的 本 征 向 量 , 其 绝对 值 较 大 的 
ye ^ TL n SS i. 分 ul 量 倾 加 T 形成 个 准 团 团 ( Quasi- 
ul: Wisc AYD jd NT VS Ni cliques， 即 正 负 两 端 分 别 形 成 一 
j | prse [eg 个 趋 于 内 部 链接 的 集团 ) C 

on ed D N ilii Mh | 
UE il JUN WR VN 5a) ,而 对 于 每 个 负 本 征 值 的 本 征 
ANI 向 量 , 这 样 的 蛋白 趋向 于 形成 准 二 


A 


T 部 图 CQuasi-bipartite, EH 1E fA Vj m 
(b) 准 二 部 图 的 内 部 不 相连 的 蛋白 形成 一 个 趋 
图 5， 蛋 白质 相互 作用 网 络 中 的 准 团 与 准 二 部 图 。 ”于 紧密 相 链 的 结构 ) (图 5b)。 


在 高 通 量 方法 产生 的 相互 作用 数据 中 有 大 量 的 假 阳性 存在 ,为 了 度量 这 些 数据 的 精确 
度 和 确定 其 偏 上 层 ， 冯 . 梅林 (von Mering) 等 评估 了 已 经 发 表 的 5,400 多 和 蛋白 中 的 80,000 
多 条 相互 作用 ， 给 每 个 相互 作用 一 个 置信 度 打 分 名。 为 降低 数据 的 假 阳 性 ， 我 们 把 对 数 
据 的 分 析 集 中 在 中 、 高 置信 度 的 数据 上 ,包括 了 2,017 个 蛋白 的 11,855 个 相互 作用 。 为 了 
分 析 相 互 作用 数据 ,首先 , 我 们 把 谱 分 析 方 法 应 用 于 计算 对 应 网 络 的 邻接 矩阵 的 所 有 本 征 
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值 和 本 征 向 量 。 用 以 下 的 标准 
都 按照 其 本 征 值 的 绝对 值 进行 排序 ， 先 选取 
顺序 加 入 和 蛋白， 新 加 入 的 蛋白 人 至少 与 已 有 
团 系数 CC 来 衡量 节点 之 间 的 连接 关系 的 程度 ， 调 节 参 数 以 保 i 
和 的 标准 取 团 ， 我 们 得 到 了 48 个 准 团 。 其 中 最 大 的 一 个 包含 


少 要 包含 10 个 蛋白 。 按 照 这 村 


生物 复杂 生物 网 络 及 非 编码 RNA 参与 的 双色 网 络 


在 大 的 正 的 本 生 


E 值 的 本 征 向 量 上 产生 准 团 : (1) 所 有 的 蛋白 
10% 的 本 征 向 量 进行 分 析 ; (2〉 按 照排 序 的 
GEHA 20% 部 分 有 相互 作用 。 这 里 我 们 用 成 


T 


准 团 的 性 质 ; C35 准 团 至 


109 个 蛋白 ， 而 最 小 的 一 个 包含 10 个 蛋白， 平均 具有 26.6 个 蛋白 《一 个 蛋白 可 以 出 现在 


多 个 团 中 )。 相 似 的 分 析 可 以 


用 在 对 负 值 的 本 生 


个 拓扑 图 谱 显 示 了 不 同 的 相互 作 月 
而 在 准 二 部 图 Cquasi-bipartite) 4 
( 见 图 5b)。 对 这 两 种 模式 的 识别 不 仅 使 得 对 


FE 向 量 的 分 析 中 ， 得 到 6 个 准 二 部 图 。 这 两 


昌 谱 。 在 准 团 中 , 蛋白 倾向 于 与 自己 相互 作用 ( 见 图 5a)， 


FP 两 个 集合 间 趋 向 于 有 相互 作用 ， 而 其 内 部 没有 相互 作用 
复杂 相互 作用 网 络 的 表示 更 有 序 化 ， 更 重要 


的 是 ,提供 了 一 种 能 够 更 方便 分 析 复 杂 网 络 的 手段 ,一 个 孤立 的 准 团 包括 不 同 的 生物 功能 。 


P 值 的 方法 可 以 作为 一 个 给 准 团 
于 某 个 功能 的 概率 。 对 于 蛋白 数 为 n 的 团 ， 含 有 某 功 


G 个 和 蛋白， 该 功能 


上 面 的 标准 描述 


赋予 主要 功能 的 标准 。 超 几何 分 布 可 以 计算 对 应 蛋白 团 对 


能 蛋白 KK 个， 设 其 所 在 的 蛋白 组 共有 


类 共有 C 个 蛋白 ， 这 样 的 团 随机 出 现 几率 的 P 值 是 : 


JS ARMA 


Fa Fe MRE E D BE HY EE SG BEL 


现 相 比 的 几率 。 如 果 


P 值 的 丰 度 接 


近 于 零 , 表示 准 团 中 这 类 蛋白 随机 先 
出 的 几率 会 很 低 ,这 里 我 们 把 每 个 准 


团 所 有 功能 类 中 P 值 最 低 的 功能 作 


为 该 团 的 主要 功能 。 对 于 48 MEHI 


中 的 每 个 团 , 我 们 都 采用 蓝 尼 黑 信息 
中 心 CMunich Information Center, 
MIPS) 的 层次 功能 注释 对 其 进行 了 


注释 , 并 


T 


计算 了 功能 注释 的 P 值 。 在 
计算 P 值 过 程 中 ，MIPS 的 注释 允许 
一 个 重 白 有 多 于 一 种 的 功能 。 结 果 显 
示 其 中 的 43 个 准 团 都 可 以 被 赋予 一 
种 功能 , 而 其 他 的 5 个 准 团 可 以 被 赋 
予 几 种 功能 。 对 准 团 中 的 单个 蛋白 的 
功能 分 析 研 究 发 现 大 部 分 的 蛋白 趋向 了 


biogenesis )， 核 糖 体 核 ; 
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图 例 : L3 主要 功能 CORRE CORE 


图 6. 48 


个 准 团 的 功能 分 类 的 百分比 


同一 共有 的 功能 ， 比 如 核糖 体 的 生物 起 源 (ribosome 


核酸 和 转移 核糖 核酸 的 合成 “rRNA and tRNA synthesis)、 处 理 
(processing,) 、 转 录 调 控 (transcription control) 和 信使 核糖 核酸 剪 切 (mRNA splicing) 等 。 只 有 


一 小 部 分 的 蛋白 是 没有 标注 功能 的 或 者 是 具有 和 准 团 中 主要 功能 相 冲 突 的 功能 ， 如 《图 6) 


所 示 。 


分 离 出 来 的 准 团 为 预测 没有 标注 功能 的 蛋白 的 功能 提供 了 很 好 的 线索 。 在 2,617 个 蛋白 
5 个 蛋白 在 MIPS 的 层次 功能 分 类 中 是 没有 标注 的 。 对 于 48 个 准 团 中 ， 


的 原始 数据 中 ， 有 55 


包含 有 76 个 没有 标注 的 蛋白 。 我 们 对 每 个 这 样 的 蛋白 


44 


用 它们 所 在 团 的 主要 功能 对 它们 的 功 


第 8 卷 第 1 HH 


能 进行 预测 。 如 果 一 个 蛋 


核糖 体 核糖 核酸 处 理 CRNA pro- 
cessing) 有 关 ; 7 个 和 核糖 核酸 前 
端 处 理 〈pre-RNA processing) 有 
关 ; 11 个 蛋白 与 核糖 体 生 物 起 源 

(ribosome biogenesis) 有 关 ; 其 
它 15 个 蛋白 分 别 与 能 量 (energy)、 
代谢 (metabolism )、 细 胞 骨架 

C cytoskeleton ) 和 转录 调控 

Ctranscription-regulating) 有关 。 
我 们 用 吴 (音译 ，Lani F. Wu) 等 
的 计算 P 值 来 对 功能 标注 的 方法 
进行 评估 。 作 为 对 照 ， 我 们 产生 
并 分 析 了 与 原 网 络 具 有 相同 的 度 
分 布 的 随机 的 网 络 数 据 。 结 果 显 
示 ， 对 于 我 们 的 实验 数据 分 析 中 
的 48 个 团 中 有 多 于 87.59% 的 功能 
类 的 注释 是 有 意义 的 《〈 即 
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图 7， 蕊 能 预测 和 小 亚 基 处 理 复合 物 注 释 实 验 结果 的 比较 


标识 的 蛋白 所 占据 的 〈《 即 未 知 蛋 


分 地 吻合 。 


至 少 


p<0.01/ Ne， 这 里 Ne 是 功能 类 的 总 数 )， 而 随机 网 络 产生 的 准 团 的 对 照 组 中 ， 上 只 有 2.1% 的 
准 团 满足 这 样 的 标准 。 这 就 意味 着 分 离 出 的 准 团 有 相当 一 部 分 可 能 具有 生物 意义 。 我 们 对 准 
团 的 一 些 预测 结果 已 经 得 到 了 最 近 的 实验 证 据 的 证 明 。 在 所 有 的 这 些 准 团 中 ,有 五 个 是 被 未 
占 所 有 和 蛋白 数目 的 50%)。 这 就 暗示 着 这 些 在 同一 个 


准 团 下 的 未 知 恒 白 可 能 组 成 一 个 与 某 个 特定 细胞 过 程 相关 的 复合 体 。 如 图 7 所 示 , 在 我 们 预 
测 的 准 团 中 , 根据 我 们 的 预测 大 部 分 蛋白 都 与 rRNA 处 理 相 关 , 这 与 最 近 的 实验 结果 正好 部 


3.2 转录 调控 网 络 的 调控 模式 倾向 性 分 析 
转录 调控 网 络 控制 着 细胞 中 所 有 基 


因 的 转录 ,在 图 


因 的 表达 水 平 , 对 转录 调控 网 络 的 研究 是 后 基因 组 时 
代 的 一 个 重要 问题 。 随 着 相关 实验 技术 的 1 
络 经 实验 测 出 四 鸣 。 我 们 可 以 把 转录 调控 网 络 简单 地 看 作 是 
因子 (transcription factors, TFs) 和 转录 因子 所 调控 的 基因 (transcription target genes, TGs) 
表示 为 图 中 的 节点 。 而 转录 因子 对 它 所 调控 的 基因 的 调控 作用 就 是 转录 因子 绑 定 到 它 目 标 基 
因 的 上 游 转录 调控 区 从 而 控制 该 基 


a 


KERER, 现在 已 经 有 多 个 模式 生物 的 转录 调控 网 
个 有 向 图 。 在 这 个 图 里 ,转录 


就 表示 为 从 转录 因子 到 该 被 调控 基因 的 


一 条 有 向 边 。 转 录 因 子 和 它们 所 调控 的 基因 之 间 的 调控 关系 在 图 中 就 表现 为 一 个 具有 多 个 点 
的 子 图 。 有 些 子 图 因 其 拓扑 上 具有 明显 的 生物 学 含义 而 被 广泛 地 研究 加 噶 ， 比 如 前 馈 环 


(feed-forward loops)、 反 馈 环 (feedback loops)、 单 输入 模 体 (single input motifs) 和 多 输 
入 模 体 (multi-input motif)( 见 图 8)。 这 些 子 图 , 或 者 说 调控 模式 可 能 含有 特定 的 调控 能 力 。 
比如 单 输入 模 体 可 能 用 来 调节 一 组 功能 相关 的 基因 ; 而 前 馈 环 则 有 可 能 在 某 个 生物 过 程 中 起 


到 时 间 控 制 的 作用 。 但 是 这 些 子 图 在 网 络 中 并 不 是 和 网 络 的 其 他 部 分 没有 关联 的 一 个 个 独立 


的 功能 单元 ,事实 上 , 这 些 子 图 倾向 于 在 
这 样 ， 一 个 转录 因子 往往 成 为 多 个 不 


g 些 具有 很 高 连通 性 的 网 络 中 心 转 录 因 子 周 围 聚集 。 


同 模 式 子 图 中 的 成 员 。 


从 全 局 上 来 说 , 调控 网 络 的 拓扑 结构 分 析 表 明 , 转录 因子 所 调控 的 基因 数目 服从 一 种 暴 


律 (Power-Law) 分 布 。 这 意味 着 ， 帮 


FE 转 录 调 控 网 络 中 一 小 部 分 的 转录 因子 调控 了 大 多 数 的 
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基因 。 这 些 
研究 表明 ， 这些 网 络 ! 
络 可 以 看 作 一 个 用 于 


心 转录 
信号 ri 


子 在 网 络 中 传递 信号 时 表现 应 该 存在 差异 外 。 
在 不 同 的 外 界 条 件 或 者 发 育 时 


导 网 络 中 发 现 ， 在 网 络 不 同 层 


有 高 度 连通 性 的 转录 


因子 被 和 
子 通 常 在 生 


因 


次 为 网 络 中 心 转录 
物体 中 是 至 关 重 要 的 关键 基 


《比如 外 界 营 养 物 质 ， 环 : 


色 网 络 


ARKH TAE] 


— 


在 变化 号 。 但 是 ， 到 有 目 
于 每 一 个 转录 因子 
进行 度量 。 为 此 ， 
控 模 式 的 使 用 偏好 。 


单 输入 模式 


图 8. 转录 调 


前 为 止 


子 网 中 ,不 同 的 i 
， 还 没有 人 在 基因 
影响; 也 没有 方法 对 转录 
我 们 希望 能 够 设计 一 套 方法 来 测度 和 表 


几 控 模式 在 网 络 


因子 对 其 下 游 1 


组 的 尺度 上 来 了 解 这 种 不 
进行 转录 调控 时 的 行为 


因子 (transcription hubs, THubs )。 
办 S591。 转录 调控 网 
HEH) 传递 的 网 络 结构 ， 而 不 同 转录 
类 似 情 况 最 近 在 哺乳 动物 的 信 
的 子 图 发 挥 功 能 1。 


因 

号 转 
另 一 方面 ， 
中 总 的 密度 也 存 


HPE AI 


多 输入 模式 


多 步骤 循环 


为 了 计算 网 络 子 图 倾向 性 


研究 的 转录 


转录 方法 模式 


3 项 点 环 型 模式 


3 顶点 树 型 模式 


4 顶点 环 型 模式 


4 顶点 树 型 模式 


图 9. 环形 模式 和 树 型 模式 


转录 调控 网 络 , 其 中 多 数 节 点 只 


因子 主要 集中 在 中 心 转录 


fa d ena nn 
因子 集合 上 


示 转 录 因 


子 在 调控 


控 网 络 中 的 模 体 示意 图 


的 模式 密度 对 


HJ 


网 


络 中 对 不 同调 


因 TRA 


o) 


(T4-3) 


(14-7) 


两 类 基 


:本 调控 模式 


与 很 少 的 其 他 节点 连接 , 而 在 总 数 ! 
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量 的 其 他 节点 。 这 样 的 节点 ， 被 称 为 中 心 节点 (Hub)。 在 转录 调控 网 络 中 我 们 称 这 些 中 心 
节点 为 中 心 转录 因子 , 它们 调控 的 基因 明显 高 于 转录 网 络 中 的 其 他 大 部 分 转录 因子 。 这 些 中 
心 转录 因子 通常 在 生物 体 中 是 关键 基因 ,中 心 节点 的 确定 通常 是 以 在 节点 的 分 布 曲线 中 取 描 
点 作为 六 值 ， 连 接 度 大 于 这 个 闹 值 的 节点 被 定义 为 中 心 节 点 。 对 于 基本 调控 模式 ,我 们 选择 
了 环形 模式 和 树 型 模式 两 类 CLE] 9)。 


我 们 判定 一 个 调控 模式 的 类 型 是 基于 其 在 拓扑 上 的 特性 是 开放 的 还 是 封闭 的 ,一 个 调控 
模式 不 管 其 调控 方向 如 何 ， 如 果 在 拓扑 上 构成 一 个 单独 的 封闭 环 ， 则 这 种 调控 方式 被 称 为 
“ 环 ” 一 个 调控 模式 不 包含 任何 环 作为 自己 的 子 图 ， 则 被 称 为 “ 树 ”。 我 们 上 只 考 虑 三 个 节点 
和 四 个 节点 的 环 和 树 ， 这 是 因为 在 两 个 节点 的 层次 ，T2-1 就 是 平凡 的 调控 结构 ， 而 R2-1 则 
是 在 网 络 中 非常 罕见 的 模式 。 而 对 于 节点 数 高 于 4 个 的 调控 模式 因为 计算 能 力 上 的 限制 ,也 
没有 包括 在 我 们 的 研究 范围 内 。 我 们 之 所 以 选择 这 些 作为 基本 调控 模式 不 仅 是 因为 其 相互 间 
的 相似 性 足够 小 , 而 且 也 是 因为 这 些 调控 模式 涵盖 了 所 有 的 基本 模式 ,， 即 所 有 其 他 的 模式 都 
可 以 从 这 些 基 本 模式 的 组 合 中 生成 出 来 。 选 定 转录 因子 集合 和 子 图 集合 以 后 ， 对 每 一 对 给 
定 的 转录 因子 五 和 子 图 P 我 们 定义 这 个 转录 因子 对 于 这 个 子 图 的 使 用 倾向 性 A 如 下 : 

AwH,P)- > >》 14d(H,k)+1)? 
sgeSG(H,P)keN(sg) 
其 中 SG(H,P) 是 转录 因子 了 下 游 所 有 子 图 P 的 实例 的 集合 ，N (sg ) 是 子 图 实例 sg 中 的 所 
Aik, d(H,k) 是 转录 因子 互 和 其 下 游 基因 天 在 网 络 中 的 最 短 距 离 。 公 式 中 出 现 的 权重 因 
T. M(d(H,k)«1y, ， 用 来 量化 一 个 转录 因子 对 下 游 的 影响 随 着 距离 的 增加 而 逐渐 减 小 的 特 
点 。 


对 于 选 定 的 转录 因子 集合 和 子 图 集合 , 每 一 对 转录 因子 和 子 图 都 可 以 计算 出 转录 因子 对 
于 子 图 的 使 用 倾向 性 ,不 过 由 于 不 同 的 转录 因子 所 调控 的 下 游 区 域 的 规模 是 不 一 样 的 , 同时 ， 
不 同 的 子 图 在 网 络 中 的 总 体 丰 度 也 有 很 大 差异 , 所 以 公式 得 到 的 这 些 不 同 转录 因子 和 子 图 之 
间 的 使 用 倾向 性 值 不 能 直接 比较 。 为 了 让 这 些 使 用 倾向 性 值 能 够 互相 比较 我 们 采用 如 下 公式 
来 消除 上 述 的 两 个 因素 的 影响 : 


A, (Hi,P;)/ > A (Hi,P;) 


Hi, P) =n MÀ 
MD AD) DENEN 
ieTHubs ieTHubs jeSG 


其 中 Ay (Hi, Pj) 是 归 一 化 之 后 的 转录 因子 五 对 子 图 P 的 倾向 性 ，THubs 代表 我 们 研究 
的 转录 因子 的 集合 , 这 里 是 全 部 的 中 心 转录 因子 ，SG 代表 我 们 研究 的 全 部 基本 调控 模式 (三 
个 节点 或 四 个 节点 的 所 有 环形 模式 和 树 型 模式 )。 这 样 我 们 就 得 到 了 所 有 中 心 转录 因子 对 所 
有 子 图 的 “ 归 一 化 的 使 用 倾向 性 ”我 们 称 一 个 转录 调控 因子 的 “网 络 子 图 倾向 性 谱 (subgraph 
preference profile，SPP)” 为 由 这 个 转录 因子 对 所 有 子 图 归 一 化 的 使 用 倾向 性 值 所 构成 的 一 
个 向 量 。 而 我 们 称 所 有 待 研究 的 转录 因子 的 网 络 子 图 倾向 性 谱 构 成 的 矩阵 为 这 个 网 络 的 网 络 
子 图 倾向 性 蓝图 Csubgraph preference landscape, SPL). 


我 们 可 以 把 子 图 倾向 性 蓝图 可 视 化 为 一 个 灰 度 图 (如 图 10)。 在 图 中 显示 得 非常 黑 的 点 
表示 转录 因子 对 这 些 调 控 模 式 不 同 于 其 他 调控 模式 的 倾向 性 。 但 是 因为 有 研究 显示 , 网 络 的 
全 局 性 结构 和 某 些 局 部 模式 是 相互 决定 的 , 所 以 , 我 们 还 不 能 从 这 个 灰 度 简单 地 判定 转录 因 
子 是 真 的 倾向 于 使 用 这 个 调控 模式 还 是 只 不 过 是 具有 这 类 丰 度 分 布 的 网 络 所 通 有 的 特性 。 为 
了 给 出 一 个 网 络 子 图 倾向 性 的 显著 性 判定 , 对 于 一 个 特定 丰 度 分 布 的 具体 网 络 , 我 们 考察 从 


47 


201703.00176v1 


chinaXiv 


生物 复杂 生物 网 络 及 非 编码 RNA 参与 的 双色 网 络 


这 个 网 络 出 发 随机 生成 的 随机 网 络 复 , 使 得 生成 的 随机 网 络 和 真实 网 络 具 有 相同 的 出 度 和 入 
度 的 分 布 。 通 过 计算 在 随机 网 络 复 中 的 网 络 子 图 倾向 性 蓝图 , 我 们 可 以 得 到 调控 模式 倾向 性 
在 随机 网 络 篮 中 的 分 布 。 因 为 转录 调控 网 络 的 随机 网 络 子 图 倾向 性 值 大 致 服从 景 律 分 布 , 我 
们 采用 一 种 基于 z 分 数 法 〈z-score， 到 均值 距离 相对 标准 差 的 倍数 ) 的 算法 来 确定 倾向 使 用 
某 一 子 图 的 显著 性 阔 值 : 从 随机 网 络 久 中 崭 除 那些 子 图 倾向 性 值 的 z 得 分 大 于 等 于 2 的 数据 ， 
然后 根据 剩 下 来 的 随机 网 络 复 的 子 图 倾向 性 值 分 布 , 我 们 取 z 得 分 大 于 等 于 2 作为 用 以 判定 
Pe R PE Pr 8 FEE BAT REL. 那些 子 图 倾向 性 大 于 这 个 闵 值 的 调控 模式 是 被 所 对 应 转录 因子 显 
著 倾向 性 使 用 的 。 为 了 给 出 这 个 倾向 性 的 统计 显著 性 ， 我 们 把 真实 网 络 和 1000 个 随机 生成 
的 网 络 进行 比较 ， 每 一 对 转录 因子 和 网 络 子 图 的 倾向 性 的 p 值 由 这 个 倾向 性 值 小 于 在 1000 
随机 网 络 中 对 应 的 倾向 性 值 的 百分比 给 出 。 
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图 10. 啤酒 酵母 转录 调控 网 络 的 网 络 子 图 倾向 性 谱 和 网 络 子 图 倾向 性 蓝图 


对 于 一 个 基于 网 络 的 定量 计算 分 析 方 法 , 我 们 除了 要 考虑 结果 相对 于 随机 网 络 是 否 有 显 
车 性 意义 ， 还 需要 考虑 结果 是 否 具有 一 定 程度 的 鲁 棒 性 、 稳 定性 。 特别 是 考虑 到 转录 调控 网 
络 的 特殊 性 ， 高 通 量 实验 带 来 的 各 种 噪音 比较 大 ， 这 一 个 问题 就 显得 尤为 重要 。 对 于 和 鲁 棒 
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性 分 析 ， 我 们 从 下 面 三 个 方面 来 考察 : 
1. 对 网 络 节点 规模 的 鲁 棒 性 我 们 在 网 络 中 随机 的 敲 除 和 添加 一 些 节点 。 然 后 观察 添 


加 /删除 节点 对 网 络 子 图 倾向 性 蓝图 的 影响 。 
2. 对 噪音 的 鲁 棒 性 我 们 给 网 络 中 加 入 一 定 的 连接 噪音 ， 这 种 噪音 包括 随机 地 加 入 、 
删除 和 交换 一 些 连 接 。 然后 观察 噪音 对 网 络 子 图 倾向 性 蓝图 的 影响 。 
3. 对 下 游 基因 数目 的 鲁 棒 性 我 们 改变 原来 的 闵 值 , 重新 得 到 新 的 转录 中 心 因子 集合 ， 
然后 观察 对 网 络 子 图 倾向 性 蓝图 的 影响 。 


此 外 , 在 我 们 研究 的 网 络 中 , 对 中 心 转录 因子 的 认定 是 采用 它们 度 分 布 的 抛 点 作为 阔 值 。 
这 个 阔 值 的 选取 没有 绝对 的 标准 ， 为 此 我 们 需要 考察 阔 值 的 选 定 对 子 图 倾向 性 蓝图 的 影响 
力 。 我 们 对 每 一 个 网 络 把 选 定 的 阔 值 分 别 增加 和 减少 1， 分 别 得 到 两 组 新 的 中 心 转 录 因 子 集 
合 。 利用 这 些 不 同 的 中 心 转录 因子 集合 , 我 们 重新 计算 了 它们 的 子 图 倾向 性 蓝图 。 对 于 以 上 
三 种 情况 ,我 们 分 别 产 生 了 相对 于 原始 网 络 的 参照 网 络 能 ,然后 计算 了 这 些 网 络 的 子 图 倾向 
性 蓝图 。 对 每 一 个 给 定 的 原始 网 络 和 与 之 对 应 的 网 络 艇 我 们 通过 比较 它们 的 子 图 倾向 性 蓝图 
来 判定 其 对 于 相应 操作 的 鲁 棒 性 。 比 较 方 法 为 : 对 每 一 对 子 图 倾向 性 蓝图 (原始 网 络 和 对 应 
网 络 徐 中 的 一 个 网 络 ) 计算 其 对 应 的 所 有 网 络 子 图 倾向 性 谱 中 向 量 对 之 间 的 欧 氏 距离 ,得 到 
一 个 网 络 子 图 倾向 性 谱 间 距离 的 分 布 ; 根据 参照 网 络 徐 内 部 子 图 倾向 性 蓝图 之 间 对 应 网 络 子 
图 倾向 性 谱 距 离 分 布 可 以 得 到 网 络 子 图 倾向 性 谱 之 间 是 否 存在 显著 差异 的 阔 值 ; RS DR EL D 
门 可 以 判定 原始 网 络 子 图 倾向 性 蓝图 和 对 应 网 络 簇 子 图 倾向 性 蓝图 间 的 距离 存在 显著 性 差 
TES] p 值 。 通 过 上 述 鲁 棒 性 分 析 我 们 发 现 网 络 子 图 倾向 性 谱 和 网 络 子 图 倾向 性 蓝图 方法 的 分 
析 结 果 对 于 各 种 点 、 边 的 噪音 以 及 转录 中 心 因子 定义 阔 值 的 改变 具有 很 好 的 稳定 性 。 


进一步 , 我 们 考察 了 啤酒 酵母 的 转录 调控 网 络 中 心 转录 因子 和 它们 下 游 调控 模式 的 倾向 
性 关系 ,我 们 的 分 析 包 括 了 综合 条 件 (static)、 细胞 周期 (cell cycle). 孢子 形成 (sporulation)、 
有 和 氧 无 氧 转换 (diauxic shift), DNA IK (DNA damage) 和 压力 反应 (stress response) 共 6 
个 条 件 下 的 啤酒 酵母 转录 调控 网 络 。 其 中 综合 条 件 网 络 是 全 网 , 另外 五 个 网 络 是 全 网 在 各 种 
条 件 下 的 子 网 。 网 络 数据 来 自 http://sandy.topnet.gersteinlab.org/， 网 络 中 的 自 相 互 作用 边 被 
去 除 。 和 先前 在 大 肠 杆菌 中 所 发 现 的 类 似 ， 醇 母 的 转录 调控 网 络 也 是 一 个 多 层 的 层次 结构 。 
在 酵母 的 综合 条 件 调 控 网 络 中 一 共有 14 层 , 而 在 细胞 周期 , 孢子 形成 , 有 和 氧 无 氧 转 换 , DNA 
O 损坏 和 压力 反应 这 五 个 条 件 下 的 子 网 络 中 分 别 有 13，14，9，9 和 7 层 。 当 我 们 把 子 图 倾向 
性 蓝图 中 中 心 转录 因子 的 网 络 子 图 倾向 性 谱 按 照 他 们 在 层次 结构 中 的 顺序 排列 的 时 候 , 我 们 
在 所 有 的 子 图 倾向 性 蓝图 中 都 观察 到 一 个 普遍 的 倾向 : 在 网 络 偏 上 部 分 的 转录 因子 比 网 络 偏 
下 部 分 的 转录 因子 有 着 更 复杂 的 网 络 子 图 倾向 性 谱 〈( 图 10)。 


进一步 , 我 们 先 分 析 了 在 各 种 条 件 下 的 子 图 倾向 性 蓝图 的 特点 , 然后 对 不 同 条 件 下 的 子 
图 倾向 性 蓝图 进行 了 比较 分 析 。 图 10 给 出 了 各 个 网 络 的 调控 模式 倾向 性 蓝图 ， 其 中 每 个 方 
格 中 的 灰 度 反映 的 是 偏好 程度 ， 越 深 偏好 程度 越 高 ， 显 著 性 高 的 部 分 我 们 用 方 框 表示 出 来 。 
我 们 可 以 明显 地 看 到 在 调控 网 络 中 不 同 转录 因子 有 倾向 性 地 使 用 不 同 的 调控 模式 。 我 们 还 
注意 到 单 输入 模 体 〈T3-3 和 T4-7) 虽然 是 唯一 在 所 有 的 网 络 中 和 在 所 有 的 层次 中 都 出 现 的 
一 种 调控 模式 , 但 是 在 所 有 的 6 个 转录 调控 网 络 中 没有 任何 转录 因子 倾向 于 使 用 这 种 调控 模 
式 。 而 对 于 前 馈 环 (R3-1) 则 在 网 络 的 各 种 层次 上 都 存在 转录 因子 倾向 于 使 用 这 种 调控 模式 。 
在 细胞 周期 和 孢子 形成 这 两 个 子 网 中 ， 反 馈 环 〈R3-2，R4-1) 被 网 络 高 层 的 转录 因子 倾向 性 
地 使 用 ， 而 在 另外 的 其 他 三 个 子 网 (有 和 氧 无 氧 转 换 ，DNA 损坏 和 压力 反应 ) 中， 更 多 是 在 
网 络 下 层 的 转录 因子 倾向 于 使 用 这 种 调控 模式 。 有 些 调控 模式 在 网 络 中 的 相对 高 丰 度 不 能 
来 解释 转录 因子 对 这 些 调控 模式 的 倾向 性 使 用 .例如 在 调控 网 络 中 研究 发 现 前 馈 环 、 反 馈 环 、 


H 
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生物 复杂 生物 网 络 及 非 编码 RNA 参与 的 双色 网 络 


单 输入 模 体 是 相对 高 频 度 出 现 的 调控 模式 ， 被 称 之 为 网 络 的 模 体 (network motif)。 但 是 ， 
如 我 们 上 面 提 到 的 ， 单 输入 模 体 在 我 们 考察 的 所 有 网 络 中 没有 被 任何 转录 因子 倾向 性 地 使 
用 ， 相 反 ， 有 些 并 不 是 很 显著 高 频 出 现 的 调控 模式 ， 比 如 T3-1, T3-2 却 被 某 些 转录 因子 倾 
向 性 地 使 用 了 。 转 录 因 子 对 某 类 调控 模式 的 高 显著 性 使 用 有 可 能 是 调控 模式 在 该 因子 周围 聚 
集 的 结果 。 例 如 , 在 细胞 周期 的 调控 网 络 子 网 中 的 转录 因子 YLRO13W 高 度 倾向 性 的 使 用 前 
馈 环 。 仔 细 考 察 YLR013W 在 调控 网 络 中 的 上 下 游 , 我们 看 到 有 4 个 前 馈 环 形成 一 个 对 称 的 
网 格 形式 〈 见 图 11 (a))。 但 是 并 不 是 所 有 的 高 倾向 性 使 用 都 可 以 用 聚集 来 解释 。 在 综合 型 的 
网 络 中 ， 我 们 总 共 探 测 到 3 例 反 馈 环 (R3-2)， 这 些 反馈 环 不 仅 聚 集 在 一 起 ， 而 且 前 后 连接 
在 一 起 成 为 一 个 大 的 反馈 环 , 并且 在 这 个 大 的 反馈 环 中 的 所 有 节点 都 是 中 心 转录 因子 〈 见 图 
11(b))。 然 而 ， 尽 管 如 此 ， 在 这 个 大 的 反馈 环 中 仍然 存在 不 倾向 性 使 用 反馈 环 的 中 心 转录 因 
T Cn YGL073W)， 并 且 在 所 有 网 络 中 都 倾向 性 使 用 了 反馈 环 的 中 心 转录 因子 只 有 一 个 
YBR049C。 既 然 转录 因子 对 调控 模式 的 倾向 性 使 用 既 不 能 由 这 些 模 式 的 高 丰 度 完全 解释 ， 
也 不 能 被 这 些 模式 在 局 部 区 域 的 高 度 聚 集 来 完全 解释 ， 我 们 认为 这 暗示 了 我 们 定义 的 这 种 
“倾向 性 使 用 ”是 反映 了 这 些 中 心 转录 因子 在 一 定 生 长 或 者 细胞 条 件 下 的 转录 调控 网 络 中 的 
某 种 重要 行为 偏好 性 。 


x 
SE 


图 11. 对 前 馈 环 、 反 馈 环 倾向 性 使 用 的 示例 


当 我 们 将 五 个 不 同 条 件 下 的 子 网 的 网 络 子 图 倾向 性 蓝图 进行 比较 时 , 观察 到 了 不 同 网 络 
在 对 调控 模式 的 倾向 性 上 的 动态 变化 。 首 先 我 们 用 科 尔 莫 戈 罗 夫 -斯 米尔 诺 夫 (Kolmogorov 
-Smirnov) 检验 来 测试 在 不 同 条 件 下 子 网 的 调控 模式 倾向 性 蓝图 中 的 倾向 值 是 不 是 来 自 同一 
分 布 。 在 有 和 氧 无 氧 转换 、DNA 损毁 和 压力 反应 的 子 网 〈 它 们 又 被 称 为 外 源 性 网 络 ) 的 三 个 
节点 ， 子 图 的 倾向 性 蓝图 明显 地 区 别 于 内 源 性 网 络 (细胞 周期 和 孢子 形成 )( 见 表 2)。 但 是 在 
孢子 形成 的 子 网 和 有 和 氧 无 氧 转换 条 件 下 的 子 网 之 间 有 些 类 似 , 这 个 例外 也 许 是 反映 了 孢子 形 
成 过 程 中 的 某 些 外 源 性 特性 的 影响 。 在 外 源 性 网 络 之 间 , 我 们 看 到 其 子 图 倾向 性 蓝图 基本 上 
是 来 自 同一 个 分 布 ， 相 反 在 两 个 内 源 网 络 之 间 ， 他 们 的 调控 模式 倾向 性 蓝图 中 的 倾向 性 p 
值 分 布 是 明显 不 同 的 。 在 四 个 节点 的 子 图 倾向 性 谱 中 我 们 也 观察 到 了 类 似 情 况 。 其 次 ， 通 过 
比较 同一 层 内 转录 因子 的 子 图 倾向 性 谱 之 间 的 欧 氏 距离 ， 我 们 观察 到 在 不 同 的 调控 网 络 中 ， 


50 


第 8 卷 第 1 期 


条 件 综合 


cr 
综合 = 
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孢子 形成 (0.0086) 


DNA 损毁 — («1x1079) 
有 和 氧 无 氧 转换 (x10? 
压力 反应 («1x10 9) 


同一 层 内 子 图 倾向 性 谱 间 
络 、 细 胞 周期 和 压力 反应 三 个 网 络 中 处 于 同 
倾向 性 谱 ( 见 表 3)， 而 在 其 他 三 个 网 络 
络 子 图 倾向 性 谱 。 在 四 个 节点 的 层次 ,在 综合 条 件 网 
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三 个 网 络 中 处 于 同一 层 的 转录 


， 处 在 同一 层 中 的 转录 因子 则 倾 


络 、 细 胞 


因子 通常 倾向 于 有 更 相似 的 模式 倾向 1 


条 件 全 部 
综合 1.354 
细胞 周期 1.972 
fü-T JE X 1.17 
DNA 损毁 3.461 
有 和 氧 无 氧 转换 3.299 
压力 反应 2.853 


中 处 在 同一 层 中 的 转录 因 
录 因 子 来 说 他 们 的 倾向 性 谱 是 简单 而 


子 则 倾向 于 有 更 加 不 同 的 倾向 怕 


明显 的 , 即 只 


Round All 


1.697 
2.511 
2.233 
6.3 

5.234 
5.743 


D- 值 
<0.001 

0.006 
<0.001 
<0.002 
<0.003 
<0.004 


ER LÆ 4)。 因 


Vol.8 No.1 
Jan. 2010 


(<1x10105 TESTER E 
(«10795 — («11079 
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的 。 对 于 三 个 节点 的 调控 模式 来 说 , 在 综合 性 网 


常 倾向 于 有 更 相似 的 网 络 子 图 


周期 子 网 和 有 


站 


向 于 有 不 同 的 网 


氧 无 氧 转换 子 网 
its 而 在 其 他 三 个 网 络 


为 对 于 底层 的 转 


包含 单 输入 模 体 , 所 以 为 了 去 除 这 种 明 
表 3. 同一 层 内 部 3 节点 网 络 子 图 倾向 性 谱 间 相似 性 比较 


内 层 
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表 4. 同一 层 内 部 4 节点 网 络 子 图 倾向 性 谱 间 相似 性 比较 
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ERG 1.474 
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孢子 形成 2.943 
DNA 损毁 20.061 
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压力 反应 12.493 


Round All 


2.799 
6.129 
2.799 
37.368 
10.638 
21.148 


D- 值 
0.002 
<0.000 
«0.001 
«0.002 
«0.003 
«0.004 


FP 都 被 认定 是 中 心 转录 调控 


的 。 相 反 的 是 ， 在 三 个 外 源 性 网 络 之 间 却 有 四 个 中 心 转录 因 
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因子 的 九 个 转录 
子 中 ， 只 有 YLR013W 的 倾向 


显 的 偏差 影响 , 我们 在 做 层 内 的 模式 倾向 性 相似 分 析 的 时 候 不 包括 最 底层 的 转录 因子 。 最 后 
我 们 考察 在 五 个 条 件 下 的 子 网 
COLE] 12)。 对 于 三 个 节点 的 调控 模式 来 说 ， 在 这 九 个 转录 基 
性 谱 在 两 个 内 源 性 网 络 之 间 有 显著 的 变化 , 尽管 两 个 内 源 性 网 络 的 倾向 性 的 


因子 的 动态 特性 


分 布 是 完全 不 同 


子 CYMR043W, YJRO60W, 


YKL043W, YLRO13W) 的 倾向 性 谱 有 着 显著 的 变化 ， 尽 管 这 三 个 外 源 性 网 
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络 的 倾 问 性 的 分 


布 是 相似 的 。 在 四 个 节点 的 
察 到 倾向 性 谱 的 更 多 的 动态 变化 。 


这 些 动态 变化 也 许 反映 的 是 转录 因 
界 环境 或 者 生长 状态 的 变化 过 程 中 所 行 
昌 的 生物 功能 的 动态 转化 。 例 如 ， 在 
控 网 络 中 , Ez] 
Eb 所 需要 的 YJR060W 倾向 性 地 使 用 了 
三 节点 和 四 节点 的 反馈 环 叶 ， 而 在 DNA 损 
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蛋白 质 来 对 核糖 体 核糖 核酸 进行 甲 基 化 修饰 加 ;微型 核糖 核酸 通过 其 种 子 (seed) 序列 定位 
于 特定 信使 核糖 核酸 的 3 UTR 区 域 ， 并 通过 其 招募 的 诱导 沉默 复合 体 CRNA induced 
silencing complex, RISC) 蛋白 来 控制 信使 核糖 核酸 的 稳定 性 或 抑制 信使 核糖 核酸 的 翻译 2 。 
将 非 编码 核糖 核酸 加 入 网 络 来 进行 研究 还 有 助 于 我 们 研究 非 编码 核糖 核酸 本 身 的 功能 。 在 对 
于 编码 基因 的 研究 中 , 蛋白 质 相 互 作用 网 络 以 及 基因 转录 调控 网 络 的 研究 已 经 展现 了 网 络 研 
究 的 巨大 威力 : 通过 网 络 聚 类 寻找 功能 模块 ， 根 据 网 络 邻居 节点 预测 蛋白 质 功 能 。 这 些 基 于 
网 络 的 研究 已 经 成 为 生物 学 研究 的 新 武器 。 我 们 相信 这 些 在 网 络 研 究 中 已 经 证 明 非 常 成 功 的 
分 析 方 法 也 肯定 能 够 帮助 我 们 更 好 地 预测 非 编码 核糖 核酸 的 功能 。 


微型 核糖 核酸 是 一 种 广泛 存在 于 高 等 动物 和 植物 中 的 微小 的 非 编 码 基 因 , 通过 控制 信使 

核糖 核酸 的 稳定 性 或 抑制 信使 核糖 核酸 的 翻译 对 生命 活动 起 到 重要 调控 作用 。 微 型 核糖 核酸 

从 染色 体 上 转录 出 来 的 初级 转录 本 (pri-miRNA) 在 细胞 核 中 经 核糖 核酸 酶 Drosha 处 理 后 

变 成 了 微型 核糖 核酸 前 体 (pre-miRNA )。 然 后 微型 核糖 核酸 前 体 被 Exportin-5/Ran-GTP 运 

送 到 细胞 质 中 ， 在 胞 质 中 前 体 进一步 被 核糖 核酸 酶 Dicer 剪 切 成 约 22 碱 基 对 Cop) 的 双 体 

(miRNA duplex)。 这 个 双 体 将 被 一 种 核糖 核酸 酶 解 开 ， 其 中 一 条 链 将 和 和 蛋白质 结合 形成 核 

T 糖 核 酸 诱 导 沉默 复合 体 (RISC)， 通 过 和 信使 核糖 核酸 3° UTR 部 分 地 互补 配对 来 抑制 蛋白 
a 质 的 合成 或 是 对 靶 基 因 降 解 。 一 些 研 究 组 基于 已 知 的 微型 核糖 核酸 调控 特征 对 其 靶 标 进行 了 
N 大 规模 的 预测 , 结果 显示 人 类 基因 组 中 有 近 1/3 的 基因 受到 微型 核糖 核酸 转录 后 水 平 的 调控 ， 
v 每 个 微型 核糖 核酸 平均 调控 了 数 百 个 编码 基因 59。 众 多 研究 者 正在 力图 通过 微型 核糖 核酸 
= 和 相应 的 靶 基 因 建 立 转录 后 的 调控 网 络 , 并 通过 研究 微型 核糖 核酸 转录 后 调控 网 络 来 研究 微 
型 核糖 核酸 与 相应 靶 基 因 的 生物 功能 ,在 已 有 的 研究 中 所 发 现 的 微型 核糖 核酸 靶 基 因 都 是 编 
码 蛋 白质 的 基因 ,， 即 信使 核糖 核酸 。 我们 猜测 微型 核糖 核酸 可 能 可 以 调控 一 类 特殊 的 非 编码 
核糖 核酸 信使 核糖 核酸 样 非 编 码 核糖 核酸 的 转录 水 平 , 形成 一 个 对 非 编码 核糖 核酸 的 转录 后 
调控 网 络 〈 见 图 13)。 大 部 分 已 知 的 非 编码 基因 的 长 度 都 是 比较 短 的 ， 但 是 最 近 几 年 的 几 个 
重要 模式 生物 的 全 基因 组 芯片 实验 和 全 长 互补 脱氧 核糖 核酸 文库 建设 都 发 现 , 基因 组 上 存在 


Pri-microRNA 


TA) Pai microRNA ~ 


RISC AP 
microRNA tit => 


ml-RNA PND, 
mRNA 


ml-RNA 
(对 microRNA 编 码 ) 


图 13. 微 型 核糖 核酸 转录 后 调控 关系 示意 图 


着 大 量 的 长 的 非 编码 转录 本 ,它们 和 编码 蛋白 的 信使 核糖 核酸 有 一 些 相似 之 处 :长度 都 很 长 ， 
都 由 核糖 核酸 聚合 酶 I 转录 ， 转 录 后 都 存在 剪接 、 加 帽 加 尾 现象 ， 但 是 又 没有 和 蛋白 编码 框 ， 


? Untranslated Regions， 非 翻译 区 ， 是 信使 核糖 核酸 分 子 两 端的 非 编 码 片段 
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因此 被 称 为 信使 核糖 核酸 样 非 编 码 基因 中 。 少 数 信使 核糖 核酸 样 非 编码 基 因 的 功能 已 经 得 
到 证 实 , 然而 绝 大 部 分 信使 核糖 核酸 样 非 编 码 基 因 的 功能 和 作用 机 制 仍然 是 未 知 的 。 由 于 信 
使 核糖 核酸 样 非 编 码 核糖 核酸 (mRNA-like ncRNA，mlRNA) 同 信使 核糖 核酸 在 序列 和 结构 
上 的 相似 性 ， 我 们 认为 信使 核糖 核酸 样 非 编码 核 糖 核 酸 很 可 能 也 是 微型 核糖 核酸 的 对 基因 。 
为 了 验证 我 们 的 猜想 ， 我 们 借鉴 了 已 有 对 微型 核糖 核酸 调控 信使 核糖 核酸 进行 验证 的 方 
法 R99。 近年 来 的 研究 表明 微型 核糖 核酸 能 够 加 速 其 对 基 因 的 核糖 核酸 降解 ， 因 此 可 以 通过 
基因 芯片 检测 所 预测 微型 核糖 核酸 训 基 因 的 核糖 核酸 水 平 来 评估 预测 结果 的 可 靠 性 ,我 们 选 
WI FANTOM 数据 库 中 收集 的 34000 条 信使 核糖 核酸 样 非 编码 核糖 核酸 作为 我 们 的 研究 对 
象 。 在 这 34000 条 序列 中 有 约 11000 条 序列 在 20 个 组 织 中 有 基因 表达 谱 数 据 。 我 们 又 选取 
了 8 条 已 经 确认 的 存在 组 织 特异 性 表达 的 微型 核糖 核酸 作为 我 们 的 微型 核糖 核酸 研究 集合 
〈 见 表 5)。 由 于 微型 核糖 核酸 能 够 显著 下 调 其 靶 基 因 的 核糖 核酸 水 平 ， 所 以 对 于 组 织 特异 


Xo. 组 织 特 异 表达 微型 核糖 核酸 刘 基 因 的 表达 谱 分 析 
mlRNA 3 mRNA 5 
排序 P HEF P 
miR-133a È 0.023 0.542 


miRNA 


miR-133a L 0.050 0.005 
miR-153 jr 0.254 0.944 
miR-206 i 0.007 0.116 


miR-206 L 0.071 0.056 
miR-375 RH 0.168 0.648 
miR-376a R 0.0004 0.808 
miR-122a 0.714 0.0828 
miR-124a 四 0.458 0.0007 
miR-208 i 0.249 0.178 


表达 的 微型 核糖 核酸 , 在 其 特异 表达 组 织 中 其 靶 基 因 的 表达 水 平 应 该 显著 低 于 其 他 组 织 。 对 
于 我 们 所 分 析 的 8 条 微型 核糖 核酸 ， 我 们 根据 miRanda 预测 结果 以 及 部 位 点 序列 保守 性 结 
果 预 测 了 它们 在 11000 条 信使 核糖 核酸 样 非 编 码 核糖 核酸 集合 上 的 间 基 因 。 然 后 对 预测 靶 基 
因 的 表达 谱 进 行 威 尔 科 克 森 秩 和 检验 CWilcoxon's rank sum test), RUWE 5 所 示 。 结 果 表 
明 有 3 条 微型 核糖 核酸 在 4 个 特异 表达 的 组 织 中 其 靶 基 因 的 表达 水 平 显著 下 调 〈 见 图 14)， 
显著 水 平和 微型 核糖 核酸 在 信使 核糖 核酸 上 的 调控 水 平 相当 , 也 验证 了 我 们 对 于 微型 核糖 核 
办 能 够 调控 信使 核糖 核酸 样 非 编码 核糖 核酸 的 猜想 。 我 们 的 结果 大 大 扩展 了 微型 核糖 核酸 参 
与 的 转录 后 调控 网 络 。 更 为 有 趣 的 是 , 我 们 的 已 有 研究 结果 表明 在 信使 核糖 核酸 样 非 编 码 核 
糖 核酸 中 存在 大 量 的 微型 核糖 核酸 编 公 核糖 核酸 (miRNA-encoding RNA), 而 微型 核糖 核酸 
对 这 些 自身 的 初级 转录 本 也 存在 调控 关系 , 因此 形成 了 一 个 复杂 的 微型 核糖 核酸 间 相 互 调控 
网 络 〈 见 图 15)。 


5 ”结束 语 


本 文 结合 近 几 年 来 我 们 研究 组 在 非 编 码 核糖 核酸 以 及 生物 复杂 网 络 方面 所 做 的 工作 ,分 
别 对 非 编 码 核糖 核酸 功能 研究 、 复 杂 生 物 网 络 分 析 以 及 非 编码 核糖 核酸 参与 的 生物 网 络 的 构 
建 几 个 方面 进行 了 介绍 .将 非 编码 核糖 核酸 引入 网 络 研究 是 目前 非 编码 核糖 核酸 研究 以 及 生 
物 复 杂 网 络 研究 这 两 个 生物 信息 学 领域 的 热点 问题 交叉 产生 的 一 个 前 沿 课题 ,在 过 去 几 年 中 
这 方面 的 研究 虽然 取得 了 一 些 成 果 , 但 目前 仍然 存在 着 很 多 有 待 解决 的 问题 。 已 有 的 生物 学 
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